利索能及
我要发布
收藏
专利号: 2021113305900
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于智慧数据平台脏数据清理方法,其特征在于,包括以下步骤:通过标签对原始数据进行分割,得到原始分割数据;

对原始数据进行检测,并对原始数据进行规范化;

将规范化的原始数据进行Hashing处理,得到数据对应的hash数据;

对hash数据进行聚类分析得到已聚类数据;

此时的得到的数据中包括已聚类数据、原始分割数据,使用恒等判定公式将已聚类数据与原始分割数据的交集进行恒等判定,寻找出缺失的或不需要的脏数据;

对找出的脏数据基于Rider‑Firefly混合算法进行清理。

2.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,对原始数据进行规范化包括:

其中, 为对原始数据进行规范化后的数据;dm,n为原始数据矩阵Dm,n中第n行、m列的元素;mn为原始数据矩阵中元素的最小值;mx为原始数据矩阵中元素的最大值;a为二进制中的1、b为二进制中的0;|表示二进制中的或。

3.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,使用聚类分析选择hash数据中的最优质心完成数据聚类包括:设置聚类中心的数量,将聚类中心作为数据集群的质心,对hash数据进行聚类,聚类的目标是将每个聚类得到的集群中的数据距离该类别的质心的距离较小且两个类别的质心距离较远,聚类的目标函数表示为:p=1,…,Nc,x,y∈p,x≠y其中,similarity(Cp,XCp)表示第p个集群的每个数据与其质心的欧几里德距离, 表示第p个集群的所有数据的集合,cp表示第p个集群的质心;similarity(cx,cy)集群x的质心与集群y的质心的相似性,cx表示集群x的质心,cy表示集群y的质心。

4.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,将已聚类数据与原始分割数据的交集进行恒等判定,即将已得到的聚类数据 与已分割的s

原始数据 的交集进行恒等判定,找出缺失或重复的脏数据D ,表示为:

5.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,对原始数据的处理包括:

根据原始数据属性的最大限制、最小限制以及设置的分割级数,计算一个调平阈值;

根据调平阈值对数据进行分割,即将数据分割为设置的分割级数个等级;

等得到的原始分割数据每个级别根据其属性数据生成码本,每个级别分别执行Huffman编码,将生成的每个数据定义为所提出Rider‑Firefly混合算法的输入。

6.根据权利要求5所述的一种基于智慧数据平台脏数据清理方法,其特征在于,调平阈值表示为:

其中, 为调平后的数据;NV表示数据的级别数, 为固定的最大限制, 为固定的最小限制。

7.根据权利要求5所述的一种基于智慧数据平台脏数据清理方法,其特征在于,根据调平阈值对数据进行分割包括以下步骤:其中, 为数据的属性; 为数据属性的调平阈值; 为数据的级别。

8.根据权利要求5所述的一种基于智慧数据平台脏数据清理方法,其特征在于,执行Huffman编码过程包括:

S221:为每个单独的数据生成一个叶子节点,并为整个叶子节点构建最小堆;

S222:以最小权值从最小堆中导出两个节点;

S223:生成一个新的节点,其权值等于两个节点权值相加,权值较小的初始节点作为左孩子,权值较大的节点作为右孩子,并将该新节点添加到最小堆中;

S224:重复步骤S222和步骤S223,直到堆达到最小节点为1;根节点是最后一个节点,到达最后一个根节点后,完成树的构建。

9.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,对找出的脏数据基于Rider‑Firefly混合算法进行清理包括:Rider算法模型中用萤火虫位置更新方程替换绕道骑手的位置更新方程,随后进行了绕道骑手、超车者和攻击者的整个更新过程,通过计算每位骑手的位置确定骑手成为领头者的成功率,对每个集群进行排序,排序后将成功率相邻的集群进行比较,将两个集群成功率之差小于设置阈值的集群合并,且将每个集群中数据与质心之间距离大于设置阈值的数据删除。

10.根据权利要求1所述的一种基于智慧数据平台脏数据清理方法,其特征在于,计算每位骑手的位置确定骑手的成功率的过程包括以下步骤:绕道骑手位置更新公式为:

跟随者位置更新公式为:

超车者位置更新公式为:

攻击者位置更新公式为:

其中,δ、β表示0‑1范围内的随机值; 表示第l个坐标处的第i位骑手的转向角, 表示第i位骑手与目标位置的距离;Ht(i)表示时间t内第i位骑手的方向指示器; 表Q Q

示第t+1时刻跟随者的位置;R (Q,l)为骑手在l坐标的速度,M(Q,l)表示领头者的坐标;Mt(i,l)为t时刻第i位骑手的位置;Q表示领头者,l表示骑手的坐标;α是[0,1]之间的随机数,εp是服从均匀分布的随机因子;γ为光吸收系数常数; 第p个数据在t时的位置; 为第q个数据在t时的位置;β0为k=0两数据距离为0时两者的吸引力,k为数据之间的距离。