1.一种高维数据可视化聚类分析方法,其特征在于,所述方法包括:对高维数据进行归一化预处理;
通过多目标遗传算法对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据;具体包括:初始化所述多目标遗传算法的种群;所述种群包括多个个体;所述个体表示所述高维数据的扩展状态;
构建多目标评价指标;多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标;具体包括:通过统计种群中各所述个体二进制编码中1的个数,确定所述高维数据的扩展维数;
根据公式 确定各所述个体的拓扑保持指标,其中,TP表示拓扑保持指标,K表示高维数据F的规模,tk表示第k组数据的等级排序,根据公式确定,u和s均表示最近邻数据点个数,NNky
和nnky分别表示原始空间和映射空间第k组数据点y个最邻近的数据点,nnkl和nnkt分别表示映射空间第k组数据点l个和t个最邻近的数据点;根据公式确定各所述个体Dunn指标,DI表示Dunn指标,d
(x,y)表示映射点x和y的欧氏距离,Ci、Cj和Ck均表示映射点i、j、k的聚类簇,nc表示映射点聚类簇数, 表示簇C和簇C的距离; 表示簇C的直径;
通过多目标评价指标筛选出最优的个体,所述最优的个体表示最优的扩展状态;
根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据;
利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类。
2.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述对高维数据进行归一化预处理,具体包括:根据公式 对所述高维数据归一化预处理,其中,Fkm和 分别表示第k组高维数据在第m维上的原始属性值和归一化后属性值;
max(Fm)和min(Fm)分别表示高维数据F在第m维上最大属性值和最小属性值;k=1,2,...,K,m=1,2,...,M,K和M分别表示高维数据F的规模和维数。
3.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据,具体包括:统计所述归一化处理后的高维数据的各维度在[0,1]取值范围上r等分出现的概率,确定各维度的概率直方图;
利用近邻传播聚类算法对各所述概率直方图进行划分,确定各维度划分结果;
根据所述划分结果以及所述最优扩展状态进行维度扩展,得到维度扩展后的高维数据,其中,各个维度扩展后的维数等于各维概率分布直方图聚类簇数,各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值。
4.根据权利要求1所述的高维数据可视化聚类分析方法,其特征在于,所述利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类,具体包括:构建类圆空间C0,所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间;
根据 确定各组维度扩展后的高维数据维度之间的相关
性,得到相似矩阵,其中,Sij为所述相似矩阵中第i行第j列的元素,K表示高维数据F的规模,tki为第k个组数据在第i维的标序值,所述标序值为利用1到M个整数将所述维度扩展后的高维数据的各组数据按照在各维度上的属性值大小进行标序的数值;
通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量,确定Fiedler向量;
根据Fiedler向量中元素大小对所述各组维度扩展后的高维数据的维度进行排序,得到排序后的高维数据;
根据公式 确定排序后的高维数据各维度在C0圆弧上的坐
标点Vλ(i),其中, 向量λ表示Fiedler向量元素大小的标序向量,λ(i)表示向量λ第i个元素值,i=1,2,...,N,N为排序后的高维数据的维数;
在类圆空间中,对任一高维数据 在坐标原点与坐标点Vλ(i)相连的直线上,确定到所述坐标原点的距离为 的点,记为二维映射点,其中, 为第k组数据在第λ(i)维上的属性值,任一个体 对应N个二维映射点;
通过所述各组数据对应的二维空间点集构成一一对应的多边形,并确定多边形的几何中心;
通过t-分布邻域嵌入算法缩小所述多边形几何中心的同簇间距,增大所述多边形几何中心的异簇间距确定映射点位置,实现高维数据可视化聚类。
5.一种高维数据可视化聚类分析系统,其特征在于,所述系统包括:预处理模块,用于对高维数据进行归一化预处理;
维度扩展模块,用于通过多目标遗传算法对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据;
映射模块,用于利用类圆映射可视化方法将各组所述维度扩展后的高维数据映射至类圆空间,实现高维数据的可视化聚类;
所述维度扩展模块,具体包括:
初始化单元,用于初始化所述多目标遗传算法的种群;所述种群包括多个个体;所述个体表示所述高维数据的扩展状态;
指标构建单元,用于构建多目标评价指标;多目标评价指标包含所述高维数据的扩展维数、拓扑保持指标、Dunn指标;具体包括:通过统计种群中各所述个体二进制编码中1的个数,确定所述高维数据的扩展维数;
根据公式 确定各所述个体的拓扑保持指标,其中,TP表示拓扑保持指标,K表示高维数据F的规模,tk表示第k组数据的等级排序,根据公式确定,u和s均表示最近邻数据点个数,NNky
和nnky分别表示原始空间和映射空间第k组数据点y个最邻近的数据点,nnkl和nnkt分别表示映射空间第k组数据点l个和t个最邻近的数据点;根据公式确定各所述个体Dunn指标,DI表示Dunn指标,d
(x,y)表示映射点x和y的欧氏距离,Ci、Cj和Ck均表示映射点i、j、k的聚类簇,nc表示映射点聚类簇数, 表示簇C和簇C的距离; 表示簇C的直径;
筛选单元,用于通过多目标评价指标筛选出最优的个体,所述最优的个体表示最优的扩展状态;
维度扩展单元,用于根据所述最优的扩展状态对归一化处理后的高维数据进行维度扩展,得到维度扩展后的高维数据。
6.根据权利要求5所述的高维数据可视化聚类分析系统,其特征在于,所述维度扩展单元,具体包括:统计子单元,用于统计所述归一化处理后的高维数据的各维度在[0,1]取值范围上r等分出现的概率,确定各维度的概率直方图;
划分子单元,用于利用近邻传播聚类算法对各所述概率直方图进行划分,确定各维度划分结果;
扩展子单元,用于根据所述划分结果以及所述最优扩展状态进行维度扩展,得到维度扩展后的高维数据,其中,各个维度扩展后的维数等于各维概率分布直方图聚类簇数,各个维度扩展后的数据有且仅有一维数据值等于对应原始维度上的数据值。
7.根据权利要求5所述的高维数据可视化聚类分析系统,其特征在于,所述映射模块,具体包括:类圆空间构建单元,用于构建类圆空间C0,所述类圆空间为二维直角坐标系以原点为圆心的单位圆空间;
相似矩阵确定单元,用于根据 确定各组维度扩展后的高
维数据维度之间的相关性,得到相似矩阵,其中,Sij为所述相似矩阵中第i行第j列的元素,K表示高维数据F的规模,tki为第k个组数据在第i维的标序值,所述标序值为利用1到M个整数将所述维度扩展后的高维数据的各组数据按照在各维度上的属性值大小进行标序的数值;
Fiedler向量确定单元,用于通过求解所述相似矩阵的Laplace矩阵最大特征值对应的特征向量,确定Fiedler向量;
排序单元,用于根据Fiedler向量中元素大小对所述各组维度扩展后的高维数据的维度进行排序,得到排序后的高维数据;
坐标点确定单元,用于根据公式 确定排序后的高维数据各
维度在C0圆弧上的坐标点Vλ(i),其中, 向量λ表示Fiedler向量元素大小的标序向量,λ(i)表示向量λ第i个元素值,i=1,2,...,N,N为排序后的高维数据的维数;
二维映射点确定单元,用于在类圆空间中,对任一高维数据 在坐标原点与坐标点Vλ(i)相连的直线上,确定到所述坐标原点的距离为 的点,记为二维映射点,其中,为第k组数据在第λ(i)维上的属性值,任一个体 对应N个二维映射点;
几何中心确定单元,用于通过所述各组数据对应的二维空间点集构成一一对应的多边形,并确定多边形的几何中心;
可视化聚类实现单元,用于通过t-分布邻域嵌入算法缩小所述多边形几何中心的同簇间距,增大所述多边形几何中心的异簇间距确定映射点位置,实现高维数据可视化聚类。