1.一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于,包括步骤如下:
S1:提取机械各标签数据的时域特征、频域统计特征,构建具有特征属性的数据对象集:
P{p1,p2,···pN};
S2:基于自然近邻思想,对于构建的数据对象集,通过搜索自然近邻信息构建互访问路径,形成近邻图,具体包括以下子步骤:S21:设置初始化参数,使数据对象集内任意对象pi对应的自然邻居状态NB(pi)为0;任意对象pi的k邻居集Nk(pi)为空集;任意对象pi的互k近邻集MNk(pi)为空集;
S22:搜索k=1时,pi的k近邻并存入Nk(pi),再搜索Nk(pi)中对象pi的k近邻,若pi属于集合Nk(pi),说明二者互为近邻,此时pi的自然邻居状态NB(pi)=1;
S23:将S22步骤的搜索过程看作一次迭代,将迭代停止条件设定为迭代前后两次拥有互近邻数增加值是否小于k,如小于k则停止迭代;如不小于k,则令k自增1后再次带入S22步骤进行迭代;
S24:当搜索停止时,数据对象集达到自然稳定状态,得到的k值即为自然特征值R,基于自然近邻关系构建出自然近邻图;
S3:根据步骤S2构建起的自然近邻图,通过自然近邻关系查询自然近邻类,确定同类对象,具体包括以下子步骤:
S31:通过查询V中顶点的自然近邻数,从大到小排序,查找出近邻数最多的顶点并将其记作为v;
S32:基于类的定义对步骤S31中指定的顶点进行查询,将v与v的自然近邻点NR(v)归为第一类,即c1,此时c1内除了v的点都与v存在边直接相连;
S33:自然近邻图的形成还包括间接连接的可达路径,所以进一步迭代查询c1内点的自然近邻点即NR(c1),直至迭代第m次与m‑1次的c1元素个数之差为0为止,表示与v共自然近邻图域的顶点均已被搜索到;
S34:将c1元素从顶点集合V中全部去除,重复S31,S32,S33的查询过程,直至V变为空集为止;
S35:将构建的类集按照类数目由大到小重新排序,可获得新的数据类集:C={c1,c2,···,cn}且|c1|≥|c2|≥···|cn|;
S4:为了描述不同类的质量高低,基于自然近邻类,在传统局部异常因子方法的基础上构建一种新的类局部异常因子算法,构建流程如下:S41:对于数据类集C={c1,c2,···,cn}且|c1|≥|c2|≥···|cn|,从中选出高质量类,记为Ch={c1,c2,···,cl},其他类称为可疑类,记为Csus={cl+1,cl+2,···,cn};
S42:计算高质量类内各个对象的局部异常因子值CLOF;
S43:通过计算类间距离评估可疑类与高质量类相似程度;
S44:借助可疑类与高质量类相似程度及已获得的高质量点异常程度,计算可疑类局部异常因子值CLOF′(cl+q),以此评估可疑类内点的异常程度;
S45:引入角度异常检测,进一步修正可疑类局部异常因子,防止部分正常数据误检测为异常,算得对象pw的角度离群系数ABOF(pw),pw∈D,求得修正后cl+q的类局部异常因子CLOF(xl+q);
S5:对低质量数据检测和未知标签进行识别,具体包括以下步骤:S51:低质量数据的检测;由步骤S4获得的类局部异常因子包括高质量类和可疑类的CLOF,低质量数据的确定通过设定阈值λ进一步判断,若可疑类CLOF超过λ,则判定该类数据质量较低,否则说明该类数据属于高质量数据,从而将检测出的低质量数据剔除,提高标签数据准确性;
S52:由步骤S51针对低质量剔除后的标签数据,再次重构自然近邻图,该环节自然近邻搜索停止条件设定为前后两次互近邻对象不再增加为止;
S53:根据所形成的的自然近邻图,获得各高质量类,并判断监测数据的具体标签种类,有以下三种结果:
(1)若pi数据对象代表的故障标签为 而pi∈cj,则类cj内所有数据对象的故障标签为(2)若类cj内不存在已知标签数据对象,且类cj属于可疑类,则类cj与离其最近的高质量类故障标签类别相同;
(3)若以上两种结果都不发生,则判定类cj内所有数据对象的故障标签为新故障类别。
2.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S2中,自然近邻思想包括以下六个定义:(1)自然稳定状态:搜索数据对象集中的k近邻,其中k依次取k=1,2,3,···,n直到所有对象都存在一个互近邻时,认为搜索达到自然稳定状态,即:且i≠j使得pi∈Nk(pj)∧pj∈Nk(pi);
(2)自然特征值:搜索达到自然稳定状态时的k值便为自然特征值R,该值表示为:(3)自然邻居:搜索达到自然稳定状态时,互为近邻也称为自然近邻,数据对象的pi的近邻集称为pi的自然邻居集NR(pi),该关系表达为:(4)自然邻居状态:对于 按照pi是否存在自然邻居,其自然邻居状态存在0和1两种状态,即:
(5)自然邻居数:自然邻居集元素的个数称为自然邻居数,即:(6)自然邻域图:搜索达到自然稳定状态时,近邻关系构建而成的邻域图GN称为数据集P的自然邻域图,该图表达为:
GN=(V,E),
式中,V和E分别代表图的顶点集{vi,i=1,2,···n}和边集{ej,j=1,2,···n},存在自然近邻关系的对象在自然近邻图上表现为存在边的连接关系,否则,不存在边的连接,任意两个顶点vi和vj,若存在一条边,则vi与vj存在如下自然近邻关系:
3.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S2中,迭代搜索方法的停止条件需满足下式:
4.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S3中,类的定义为若从自然近邻图中的顶点v1到顶点v2,存在对应的可达路径并记为e1→ei→···e2,则代表v1与v2间关系紧密,即顶点v1与v2为同一类,且称v1与v2共自然近邻图域,否则为不同类;对类的迭代查询的停止条件需满足下式:
5.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S4中,从数据类集C={c1,c2,···,cn}且|c1|≥|c2|≥···|cn|对高质量类Ch的选择需通过以下方法进行:
对于给定参数β,选出的高质量类Ch需同时满足以下两个条件:(1)|c1|+|c2|+···+|cl|≥Nβ;
(2)|c1|+|c2|+···+|cl‑1|≤Nβ;
式中,N为数据点总个数,β值取为90%,表示前l类中已经包括了90%监测数据,具有高度的聚集性,由此确定前l类为高质量标签数据类。
6.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S4中,对高质量类CLOF的计算需通过下列表达式进行:式中: 分别代表cj类中对象pj的k的近邻且k为自然特征值、对象o的局部可达密度、以及对象pj的局部可达密度。
7.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S4中,评估可疑类与高质量类间相似程度的类间距离定义为可疑类集Csus中某一类cl+q(1≤q≤n‑l)到高质量集Ch内类的最小距离,表达式为:d(cl+q,Ch)=min{d(cl+q,cr)|cr∈Ch}。
8.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S4中,可疑类局部异常因子值CLOF′(cl+q)的计算需通过下列表达式进行:式中,pw为cm中点,且满足d(cl+q,pw)=d(cl+q,cm),m=argmin(d(cl+q,ci))。
9.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S4中,引入角度异常检测对类局部异常因子进一步修正,所遵循的原理为:点簇内任意一点ow四面八方都存在着其他点,各点与其形成的角度变化范围比较大,簇边界点与周围点形成夹角变化范围要小于簇内点,而方差能够衡量随机变量的离散程度,夹角的离散程度便可以通过夹角的方差var(ow)来衡量,具体通过以下步骤进行:(1)对任意对象pw,pw∈D,该点与其周围任意两点px、py且w≠x≠y形成夹角,大小用其余弦来衡量,表示为:
式中: 表示两向量的点积, 分别为向量 和的模;离散型随机变量方差表示为:
2 2 2
Var(X)=E[(X‑E[X]) ]=E[X]‑E[X],式中:X为随机变量,E[X]为随机变量X的期望;
(2)采取距离权重因子化的夹角方差,获得对象pw的角度离群系数ABOF(pw):(3)将ABOF归一化到[0,1]区间,若pw相对于高质量类cm离群程度较高,则ABOF(pw)的值越小,据此,得到修正后cl+q的类局部异常因子表达为:CLOF(cl+q)=CLOF′(cl+q)*exp(‑ABOF(pw))。
10.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤5中,再次重构自然近邻图时的搜索停止条件应满足下式: