1.一种面向长尾分布数据的工业过程故障诊断方法,其特征在于,包括如下步骤:S1:利用系统收集过程正常工况的头部类样本以及各种故障的尾部类样本组成建模用的有标签训练样本集;
S2:引入密度系数和距离系数作为尾部类样本所携带的信息量衡量标准,作为尾部类样本的信息权重,并对其信息权重进行归一化处理,归一化处理后的结果作为尾部类样本在学习过程中被选择的概率;
S3:基于密度和距离的联合概率更新策略,对于被选中的尾部类样本赋予更高的权重,得到一个对角权重矩阵,将此矩阵引入到随机配置网络的输出权值的计算之中;
具体步骤如下:
S31:设置构建模型的最大隐含层节点池容量Lmax,L表示当前网络节点数目,选择Sigmoid作为激活函数,随机参数的分配区间上下限位±λ,设定期望容忍误差ε、以及超参数C;
S32:在随机参数的分配区间内依次随机生成L个隐层节点,每生成一个节点,计算对应输出向量HL;
S33:在长尾分布数据集的情况下,引入基于尾部类样本密度和距离的概率选择的分类器目标函数,对于被选中的尾部类样本赋予更高的权重,更新方式定义如下:式中, 表示被选择的尾部类样本的权重值, 表示尾部类样本被选择的概率,n代表尾部类样本的数量;
S34:对于尾部类样本权重Wj可作为超参数来处理,其解决方式如下:S35:模型的输出权值通过全局最优的方式来求解,即 其中I表示单位矩阵,C是正则化系数,HL表示第L个隐藏层节点隐藏层的输出矩阵, 表示HL的转置,W是与训练样本相关的对角矩阵,T表示训练集输出样本集;
S36:当残差||eL||小于或等于给定期望容忍误差ε时,模型建立结束,否则返回步骤S32并向网络新增加隐层节点,不断循环步骤S32‑S36直到残差||eL||小于或等于给定期望容忍误差ε或者达到最大隐层节点数Lmax时为止。
2.根据权利要求1所述的面向长尾分布数据的工业过程故障诊断方法,其特征在于,步骤S1中组成建模用的有标签训练样本集过程如下:设故障类别为C,再加上一个正常类,则每个样本建模数据的总类别为C+1,即Xi=[x1,x2,...xN],其中, N为训练样本数,m为过程变量数, 为实数集;所有完整的有标head签训练样本集X=[X1,X2,...,XC+1],记录所有数据的标签信息;设正常类样本数据T 为头tail部类,其余样本数据T 均为尾部类,将不平衡度IR设定为100。
3.根据权利要求1所述的面向长尾分布数据的工业过程故障诊断方法,其特征在于,步骤S2具体步骤如下:tail
S21:设T ={X1,X2,...,Xn}表示属于尾部类样本的集合,n代表尾部类样本的数量,headT ={Y1,Y2,...,Ym}表示属于头部类样本的集合,其中Xi的K近邻表示为和 分别对应着尾部类样本以及头部类样本与尾部类样本中Xi的近邻;
tail
S22:对任意的Xi∈T ,密度系数定义为:
式中, 为Ni中头部类样本的数量,Ni为Xi的K近邻,C(Xi)为头部类样本在Xi的K近邻所占的比例;
S23:距离系数计算方式如下:
式中, xik和xjk分别是样本xi和xj对应的k个描述属性的具体数值,dist(Xi,Xj)为Xi与Xj之间的欧式距离,l为给定数据集T的特征数,D(Xi)为Xi到 的距离占Xi到Ni的比例;在边界区域,尾部类样本距离头部类样本越远,D(Xi)越大;
S24:结合步骤S22的密度系数与步骤S23的距离系数,得到尾部类样本的信息权重I(Xi),信息权重I(Xi)定义如下:I(Xi)=λC(Xi)+(1‑λ)D(Xi)
式中,I(Xi)是对Xi的重要性的一种衡量,λ是调和参数;
S25:对I(Xi)进行归一化:
此时归一化之后的I(Xi)满足如下:
式中, 代表样本Xi在选择过程中被选择的概率。