利索能及
我要发布
收藏
专利号: 2018108923198
申请人: 东软集团股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-10
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种异常数据的检测方法,其特征在于,所述方法包括:

获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;

对每个特征的原始特征值进行标准化,获得每个特征的特征值;

计算每个特征的特征值的平均值以及每个特征的特征值的标准差;

根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;

当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。

2.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;

计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;

取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。

3.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;

将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;

将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;

将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;

如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。

4.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;

将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;

将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;

将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;

将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;

将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;

如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。

5.根据权利要求4所述的方法,其特征在于,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。

6.根据权利要求1-5任一项所述的方法,其特征在于,在对每个特征的原始特征值进行标准化之前,所述方法还包括:删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。

7.一种异常数据的检测装置,其特征在于,所述装置包括:

获取单元,用于获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;

处理单元,用于对每个特征的原始特征值进行标准化,获得每个特征的特征值;

计算单元,用于计算每个特征的特征值的平均值以及每个特征的特征值的标准差;

第一确定单元,用于根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;

第二确定单元,用于当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。

8.根据权利要求7所述的装置,其特征在于,所述第一确定单元具体包括:第一计算子单元,计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;

第二计算子单元,用于计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;

第一确定子单元,用于取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。

9.一种计算机可读存储介质,其特征在于,所述机算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-6任一项所述的异常数据的检测方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-6任一项所述的异常数据的检测方法。