利索能及
我要发布
收藏
专利号: 2024106983310
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-05-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于海量数据分类的网格聚类方法,其特征在于包括如下步骤:S1. 获取待分类的海量数据;

S2. 对步骤S1获取的数据进行归一化处理后,构建待分类数据集;

S3. 计算步骤S2得到的待分类数据集所对应的数据空间的参数信息,并根据计算得到的参数信息对数据空间进行网格划分和聚类;

S4. 将步骤S3得到的划分和聚类后的网格空间,再次进行子空间划分,并生成对应的空间划分树;

S5. 对步骤S4得到的空间划分树的叶子节点和非叶子节点进行聚类,得到聚类结果;

S6. 根据步骤S5得到的聚类结果,完成对待分类的海量数据的网络聚类。

2.根据权利要求1所述的用于海量数据分类的网格聚类方法,其特征在于所述的步骤S3,包括如下步骤:计算待分类数据集所对应的数据空间的参数信息;所述参数信息包括网格宽度、网格内部密度、网格外部密度和网格密度;根据网格内点的数量计算得到网格内部密度;根据网格与网格之间的相互影响计算得到网格外部密度;根据网格内部密度和网格外部密度计算得到网格密度;

根据计算得到的网格密度信息,设定核心网格和边缘网格的划定规则,并根据设定的规则划定核心网络和边缘网络;

根据得到的核心网络和边缘网络以及网络与网络之间的距离,对数据空间进行网格聚类。

3.根据权利要求2所述的用于海量数据分类的网格聚类方法,其特征在于所述的步骤S3,具体包括如下步骤:设定半径阈值 ,采用如下算式计算得到网格宽度: 式中width为网格宽度;

d为数据维度;

根据得到的网格宽度width,将数据空间的每个维度均平均划分为l等份,得到由 个超立方体网格组成的网格空间;l的计算式为 , 为向上取整函数;

将归一化处理后的数据点,根据自身的坐标位置加入到对应的网格中;

对于任意一个网格g,用四元组 表示; 为网格g的坐标; 为网格g内各个点的坐标的线性和; 为网格g的内部密度, , 表示网格g内点的数量; 为网格g的外部密度;

对于任意两个网格g和网格h,采用如下算式计算网格距离:式中 为网格g和网格h之间的网格距离, 为网格h的内部密度; 为网格g内各个点的坐标在第k维度的线性和; 为网格h内各个点的坐标在第k维度的线性和;

对于网格h,采用如下算式计算得到网格h对网格g的密度影响:式中 为网格h对网格g的密度影响;

对于网格g,设定网格g的外部密度 为网格g附近 范围内的所有邻近网格对网格g的密度影响的和,计算式表示为: 式中 为网格g附近 范围内的所有邻近网格的集合;

计算得到网格g的网格密度 为 ;

根据计算得到的网格密度信息,设定核心网格和边缘网格的划定规则:核心网格:若一个非空网格的网格密度大于或等于设定阈值minPts,则将该非空网格作为核心网格;

边缘网格:若一个非空网格的网格密度小于设定阈值minPts,则将该非空网格作为边缘网格;

所有核心网格组成核心网络集 ,所有边缘网格组成边缘网络集合 ;

根据得到的核心网络和边缘网络以及网络与网络之间的距离,采用如下规则对数据空间进行网格聚类:规则1:一个类中至少包括一个核心网格;

规则2:网格距离小于或等于半径阈值 的核心网格,归于同一个类;

规则3:核心网格具有传导性质:若核心网格 与核心网格 的网格距离小于或等于半径阈值 ,且核心网格 与核心网格 的网格距离小于或等于半径阈值 ,则核心网格和核心网格 归于同一个类;

规则4:边缘网格归于距离其半径阈值 内的核心网格所在的类;若边缘网格的半径阈值 内有至少2个核心网格,则边缘网格归于所有核心网格中网格密度最大的核心网格所在的类;

规则5:若边缘网格的半径阈值 内没有核心网格,则将该边缘网格作为噪音网格。

4.根据权利要求3所述的用于海量数据分类的网格聚类方法,其特征在于所述的步骤S4,包括如下步骤:定义切面邻居网格:对于网格空间G,用切面F将网格空间G切分为两个子网格空间,表示为第一子网格空间 和第二子网格空间 ;与切面F存在相切面的网格称为切面F的邻居网格;落在第一子网格空间 中的邻居网格为 的切面邻居网格,落在第二子网格空间中的邻居网格为 的切面邻居网格;

设定如下划分规则,对网格空间进行子空间划分,并生成对应的空间划分树:规则a:对于任意一个非叶子节点GG所代表的子网格空间,先从该子网格空间中随机挑选若干个维度,并从挑选的维度中选择最长的维度作为被划分维度;从被划分维度的中间位置将该子网格空间划分为更小的两个子网格空间 和 ,并将得到子网络空间 作为非叶子节点GG的左孩子节点,将得到的子网格空间 作为非叶子节点GG的右孩子节点;

规则b:若非叶子节点GG被切面F划分为两个子网格空间 和 ,则记录切面F的所有切面邻居网格:落在子网格空间 中的切面邻居网格构成集合 ,落在子网格空间中的切面邻居网格构成集合 ;将切面F的位置信息、集合 和集合 保存在非叶子节点GG中;

规则c:对于落在集合 中的各个网格,计算各个网络来自集合 中的外部密度,并将对应的网格传递到非叶子节点GG的左孩子节点;对于落在集合 中的各个网格,计算各个网络来自集合 中的外部密度,并将对应的网格传递到非叶子节点GG的右孩子节点;

用根节点表示整个网格空间,并根节点递归的对各个非叶子节点,通过规则a 规则c进~行非叶子节点的划分,直至满足递归终止条件;此时,整个网格空间中的网格被保存到各个叶子节点中,各个非叶子节点仅保存切面信息和切面邻居网格信息;

最终,完成子空间的划分以及空间划分树的生成。

5.根据权利要求4所述的用于海量数据分类的网格聚类方法,其特征在于所述的递归终止条件,具体包括如下条件:条件1:节点空间中的网格数量小于或等于设定阈值;

条件2:节点在空间划分树中的深度达到设定阈值;

递归终止条件为:若满足条件1或满足条件2,则递归终止。

6.根据权利要求5所述的用于海量数据分类的网格聚类方法,其特征在于所述的步骤S5,包括如下步骤:针对空间划分树的叶子节点,采用规则1 规则5对各个叶子节点的子网络空间进行聚~类,从而得到聚类结果;

针对空间划分树的非叶子节点,基于各个非叶子节点中保存的切面信息和切面邻居网格信息,由底至上进行聚类,并在空间划分树的根节点得到聚类结果。

7.根据权利要求6所述的用于海量数据分类的网格聚类方法,其特征在于对空间划分树的叶子节点进行聚类,具体包括如下步骤:针对任意一个叶子节点的子网格空间 ,均采用如下步骤进行聚类:a. 计算子网格空间 中各个网格的网格密度,并根据设定阈值minPts将子网格空间划分为核心网格集合C和边缘网格集合B;

b. 设置类的标签labelID并初始化为0,新建队列Q并初始化为空队列;

c. 从核心网格集合C中取出一个未访问的核心网格,标记为访问状态、打上类的标签labelID并加入队列Q中;

若核心网格集合C中不存在未访问的核心网络,则转到步骤g;

d. 从队列Q中取出队首的核心网格,找到该核心网格的半径阈值 范围内的全部未访问的核心网格,将找到的核心网格打上类的标签labelID、标记为已访问状态并放入队列Q的队尾;

e. 重复步骤d直至队列Q为空;

f. 将类的标签labelID的值增加1,并返回步骤c;

g. 遍历边缘网格集合B中的边缘网格,将各个边缘网格聚类到各自半径阈值 范围内的网格密度最大的核心网格所在的类中,并将边缘网络打上所聚类到的核心网格所在类的标签;

若某边缘网格的半径阈值 范围内没有核心网格,则将该边缘网络标记为噪音网格。

8.根据权利要求7所述的用于海量数据分类的网格聚类方法,其特征在于对空间划分树的非叶子节点进行聚类,具体包括如下步骤:设定非叶子节点GG所代表的网络空间为Gg,对应的两个孩子节点所代表的网格空间为和 ,网络空间Gg对应的切面邻居网格集合为 和 ;

设定网格空间 和 均已完成聚类,则在网络空间Gg上对孩子节点的合并,遵循以下原则:原则一:设定 和 均为核心网格,且 , ;若 ,则将 所在的类和 所在的类合并为一个更大的类;

原则二:设定 、 、 均为核心网格, , , ,且 和 不在同一个类中;若 且 ,则将 、 、 各自所在的类合并为一个更大的类;

原则三:设定 为边缘网格, 为核心网格, , , 在网格空间 中被归为噪音网格;若 ,则将 加入到 所在的类;

原则四:对于同时不满足原则一、原则二和原则三的网格,不进行聚类操作。

9.一种实现权利要求1 8之一所述的用于海量数据分类的网格聚类方法的系统,其特~征在于包括数据获取模块、数据处理模块、第一划分聚类模块、第二划分模块、第三聚类模块和网络聚类模块;数据获取模块、数据处理模块、第一划分聚类模块、第二划分模块、第三聚类模块和网络聚类模块依次串联;数据获取模块用于获取待分类的海量数据,并将数据信息上传数据处理模块;数据处理模块用于根据接收到的数据信息,对获取的数据进行归一化处理后,构建待分类数据集,并将数据信息上传第一划分聚类模块;第一划分聚类模块用于根据接收到的数据信息,计算得到的待分类数据集所对应的数据空间的参数信息,并根据计算得到的参数信息对数据空间进行网格划分和聚类,并将数据信息上传第二划分模块;第二划分模块用于根据接收到的数据信息,将得到的划分和聚类后的网格空间,再次进行子空间划分,并生成对应的空间划分树,并将数据信息上传第三聚类模块;第三聚类模块用于根据接收到的数据信息,对得到的空间划分树的叶子节点和非叶子节点进行聚类,得到聚类结果,并将数据信息上传网络聚类模块;网络聚类模块用于根据接收到的数据信息,完成对待分类的海量数据的网络聚类。

10.一种包括了权利要求1 8之一所述的用于海量数据分类的网格聚类方法的用户推~荐方法,其特征在于具体包括如下步骤:

A:获取待聚类的社交网络数据;

B:采用权利要求1 8之一所述的用于海量数据分类的网格聚类方法,对获取的社交网~络数据进行聚类;

C:根据步骤B得到的聚类结果,进行社区发现、社团属性挖掘和小世界网络分析;

D:根据步骤C得到的结果,完成社交网络的聚类,并进行用户推荐。