1.基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,包括以下步骤:
1)原始污水数据中某些样本在某些属性上存在缺失值,对这些样本采用均值法补全其缺失值,并将所有属性值归一化到[0,1]区间;
2)利用步骤1)中处理好的完整的污水样本作为Stacking两层学习框架中的第一层基分类器的原始输入,其中基分类器选择支持向量机SVM、加权极限学习机WELM和相关向量机RVM,分别对3个基分类器进行3折交叉验证,得到第一层学习对每个污水样本的诊断结果,即3个基分类器对于每个污水样本在4个类别上的输出值,并且得到3个基分类器对于训练样本的G-mean值;
3)根据步骤2)中得到的G-mean值,定义基于G-mean值的基分类器输出权值计算公式,获得基分类器hi(x)对应的输出权值αi;
4)将步骤2)中的输出结果转化为概率型输出,即得到了每个原始污水样本分别属于4个类别的概率值,利用每个样本属于4个类别的概率值乘以在步骤3)中获得的基分类器的权值αi,加上原始的类别标签,构造成新的训练集,称为元训练集;
5)用步骤4)得到的元训练集作为Stacking两层学习框架中第二层元分类器的输入,其中选择WELM作为第二层的元分类器,得到最终的诊断模型Mstacking;
6)用步骤1)相同的方法填补污水待测数据的缺失值,并将其归一化到[0,1]区间,通过第一层基分类器在训练样本D上训练学习产生的模型Mk,K=1,2,3,分别对应3个基分类器,对处理后的待测数据输出预测结果;
7)对步骤6)中的预测结果用步骤4)相同的方法进行处理,在此基础上构成Mstacking的输入,其输出分类结果即为待测数据对应的故障诊断结果;
8)进行参数寻优,需要寻优的参数有WELM模型的隐层节点数L、最优正则化系数C及RVM模型的核宽度σ,寻优方法为网格法,以寻优得到的最优参数为基础,训练基分类器和元分类器。
2.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤2)中,3折交叉验证的具体过程如下:将训练数据集D随机分为3个大小相等的数据集D1,D2,D3;定义Dj和D-j=D-Dj,j=1,2,3,分别为3折交叉验证的第j折测试集和训练集;在训练集D-j上训练基分类器得到模型k=1,2,3,对于测试集Dj中的每一个样本,模型 会输出一个预测结果;当交叉验证过程结束,则能够得到基分类器对于整个训练样本的输出结果。
3.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤3)中,基分类器hi(x)输出权值αi表示为:其中,GMi为第i个基分类器对于训练样本集的G-mean值,c为基分类器个数。
4.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,所述步骤4)包括以下步骤:
4.1)基分类器WELM的输出为数值输出,通过下述公式将数值输出转化为概率形式:
其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器WELM原输出结果A1转化为概率型输出结果A1';
4.2)SVM和RVM的基本模型是针对二分类问题的,其输出为硬判决输出,即对于一个样本的预测结果为0和1;在此,基分类器SVM和RVM是利用一对一策略构建的多分类器,通过下述公式将硬判决输出转化为概率形式:其中,x为某一样本,i为类别标签,m为类别个数,fi(x)为该样本属于标签i的原始输出,pi(x)为该样本属于标签i的概率型输出;通过此方法将基分类器SVM和RVM原输出结果A2,A3转化为概率型输出结果A2',A3';
4.3)将A1',A2',A3'和训练集标签拼接起来构造成新的训练集,即[A1'*α1 A2'*α2 A3'*α3 train_label],也称为元训练集,其中,train_label为原始训练样本类别标签。
5.根据权利要求1所述的基于加权基分类器的stacking集成污水处理故障诊断方法,其特征在于,在步骤8)中,基分类器及元分类器的网格法寻优参数具体如下:寻找隐层节点数L、最优正则化系数C及RVM模型的核宽度σ的参数组合以满足算法的最优性能,L的寻优范围为{10,15,20,…,500},步长为5;C的寻优范围为{20,21,…,218},步长为1;σ的寻优范围为{2-2.5,2-2.4,…,22.5},步长为0.1。