1.一种数据处理方法,其特征在于,包括:
根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分,包括:根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
3.根据权利要求2所述的方法,其特征在于,所述依次根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求,包括:分别确定所述数据集中的数据样本的各特征维度的方差;
根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点;
根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点;
根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据方差最大的特征维度以及用于确定该方差的数据样本的上下界,确定该特征维度的分位点,包括:构建排序后的索引区间;其中,所述排序后的索引区间的相邻边界依次递增;
根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引,并根据该特征维度的分位点的索引确定该特征维度的分位点。
5.根据权利要求4所述的方法,其特征在于,所述根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引,并根据该特征维度的分位点的索引确定该特征维度的分位点,包括:在所述排序后的索引区间中查询目标索引区间,其中,所述目标索引区间为下边界对应的特征维度的数值大于给定分位点与数据样本数量之积与给定误差的和的最小索引区间;
若存在所述目标索引区间,则将所述目标索引区间的上一索引区间的下边界对应的特征维度的数值作为该特征维度的分位点;
若不存在所述目标索引区间,则将最大索引区间的下边界对应的特征维度的数值作为该特征维度的分位点。
6.根据权利要求1所述的方法,其特征在于,所述分别对各分区内的数据样本进行聚类,包括:对于任一分区,确定该分区中的核心对象;
对于任一核心对象,将从该核心对象出发密度可达的其他数据样本聚类到该核心对象对应的簇;其中,一个数据样本最多属于一个簇。
7.根据权利要求1所述的方法,其特征在于,所述对所述各分区的聚类结果进行合并,包括:查询处于相邻分区边界线ε邻域内的数据样本;
遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;
若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
8.一种数据处理装置,其特征在于,包括:
划分单元,用于根据数据集中的数据样本的特征维度的方差对所述数据集中的数据样本进行分区划分;
聚类单元,用于分别对各分区内的数据样本进行聚类,以得到各分区的聚类结果;
合并单元,用于对所述各分区的聚类结果进行合并,以得到所述数据集的聚类结果。
9.根据权利要求8所述的装置,其特征在于,
所述划分单元,具体用于根据所述数据集中的数据样本的各特征维度中方差最大的特征维度对所述数据集中的数据样本进行分区划分,直至达到预设分区划分要求。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:确定单元,用于分别确定所述数据集中的数据样本的各特征维度的方差;
所述确定单元,还用于根据方差最大的特征维度以及用于确定该方差的特征维度的上下界,确定该特征维度的分位点;
所述划分单元,具体用于根据该特征维度的分位点对所述数据集中的数据样本进行分区划分;
所述确定单元,还用于若存在样本数量大于预设样本数量阈值的分区,则确定该分区中的数据样本的各特征维度的方差,并根据所确定的未用于分区划分的特征维度的方差中最大的方差对应的特征维度以及用于确定该方差的特征维度的上下界确定该特征维度的分位点;
所述划分单元,还具体用于根据该特征维度的分位点对该分区中的数据样本再次进行分区划分,直至各分区的样本数量均小于等于预设样本数量阈值。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:构建单元,用于构建排序后的索引区间;其中,所述排序后的索引区间的相邻边界依次递增;
查询单元,用于根据给定误差和分位点,在所述排序后的索引区间中查询该特征维度的分位点的索引;
所述确定单元,具体用于根据该特征维度的分位点的索引确定该特征维度的分位点。
12.根据权利要求11所述的装置,其特征在于,
所述查询单元,具体用于在所述排序后的索引区间中查询目标索引区间,其中,所述目标索引区间为下边界对应的特征维度的数值大于给定分位点与数据样本数量之积与给定误差的和的最小索引区间;
所述确定单元,具体用于若存在所述目标索引区间,则将所述目标索引区间的上一索引区间的下边界对应的特征维度的数值作为该特征维度的分位点;
所述确定单元,还具体用于若不存在所述目标索引区间,则将最大索引区间的下边界对应的特征维度的数值作为该特征维度的分位点。
13.根据权利要求8所述的装置,其特征在于,
所述聚类单元,具体用于对于任一分区,确定该分区中的核心对象;对于任一核心对象,将从该核心对象出发密度可达的其他数据样本聚类到该核心对象对应的簇;其中,一个数据样本最多属于一个簇。
14.根据权利要求8所述的装置,其特征在于,
所述合并单元,具体用于查询处于相邻分区边界线ε邻域内的数据样本;遍历处于相邻partition边界线ε邻域内的数据样本,找出所有满足邻居关系,但属于不同分区的数据样本对;若该数据样本对中存在至少一个核心对象,则将该数据样本对所在的簇进行合并。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。