1.一种噪声点检测方法,其特征在于,包括:
利用聚类算法对原始数据点进行聚类,得到N个原始簇,并将每个所述原始簇的簇类型标记为第一簇类型,其中,N为大于或等于2的自然数;
针对每个原始簇,从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点;
将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型;
重复进行将距离最近的两个簇合并为一个新簇,并对所述新簇标记簇类型的操作,直到满足预设的合并终止条件为止,其中,当被标记为第一簇类型的簇与被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;当两个被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第二簇类型;当两个被标记为第一簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;
在合并终止后,将归类为第二簇类型的簇中的数据点确定为是噪声点。
2.根据权利要求1所述的方法,其特征在于,在所述将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型的步骤之前,所述方法还包括:针对每个原始簇,确定该原始簇中的边缘数据点总数占归类为该原始簇的原始数据点总数的占比是否满足预设的占比条件;
当存在不满足所述占比条件的原始簇时,调整针对该原始簇的数据点有效条件,并重新执行所述从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点的步骤,直到全部原始簇均满足所述占比条件为止。
3.根据权利要求1所述的方法,其特征在于,所述数据点有效条件为:数据点与所述原始簇的簇中心之间的距离小于或等于针对该原始簇预设的距离阈值,其中,所述距离阈值小于归类为该原始簇且距离该原始簇的簇中心最远的原始数据点到该原始簇的簇中心之间的距离。
4.根据权利要求1所述的方法,其特征在于,所述合并终止条件为:任意两个被标记为第一簇类型的簇被合并。
5.根据权利要求1-4中任一项所述的方法,其特征在于,该方法还包括:从所述边缘数据点中去除所述噪声点;
根据归类为每个所述原始簇的剩余数据点,重新计算每个所述原始簇的簇中心。
6.一种噪声点检测装置,其特征在于,包括:
原始簇生成模块,用于利用聚类算法对原始数据点进行聚类,得到N个原始簇,并将每个所述原始簇的簇类型标记为第一簇类型,其中,N为大于或等于2的自然数;
边缘数据点确定模块,用于针对每个原始簇,从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点;
扩展簇生成模块,用于将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型;
簇合并模块,用于重复进行将距离最近的两个簇合并为一个新簇,并对所述新簇标记簇类型的操作,直到满足预设的合并终止条件为止,其中,当被标记为第一簇类型的簇与被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;当两个被标记为第二簇类型的簇合并时,所得新簇的簇类型被标记为第二簇类型;当两个被标记为第一簇类型的簇合并时,所得新簇的簇类型被标记为第一簇类型;
噪声点确定模块,用于在合并终止后,将归类为第二簇类型的簇中的数据点确定为是噪声点。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
占比确定模块,用于在所述扩展簇生成模块将所确定出的每个边缘数据点各自作为扩展簇,并将每个所述扩展簇的簇类型标记为第二簇类型之前,针对每个原始簇,确定该原始簇中的边缘数据点总数占归类为该原始簇的原始数据点总数的占比是否满足预设的占比条件;
数据点有效条件调整模块,用于当存在不满足所述占比条件的原始簇时,调整针对该原始簇的数据点有效条件,并触发所述边缘数据点确定模块重新执行所述从归类为该原始簇的原始数据点中确定出不符合针对该原始簇的数据点有效条件的边缘数据点的操作,直到全部原始簇均满足所述占比条件为止。
8.根据权利要求6所述的装置,其特征在于,所述数据点有效条件为:数据点与所述原始簇的簇中心之间的距离小于或等于针对该原始簇预设的距离阈值,其中,所述距离阈值小于归类为该原始簇且距离该原始簇的簇中心最远的原始数据点到该原始簇的簇中心之间的距离。
9.根据权利要求6所述的装置,其特征在于,所述合并终止条件为:任意两个被标记为第一簇类型的簇被合并。
10.根据权利要求6-9中任一项所述的装置,其特征在于,该装置还包括:噪声点去除模块,用于从所述边缘数据点中去除所述噪声点;
簇中心计算模块,用于根据归类为每个所述原始簇的剩余数据点,重新计算每个所述原始簇的簇中心。