1.一种基于生物信息特征的列车转向架故障识别方法,其特征在于,包括以下步骤:步骤1,针对每种故障类型均构建相应的DNA序列集;
步骤1.1,获取列车转向架的历史振动信号,且已知列车转向架的故障类型,对历史振动信号进行预处理得到由4种构成元素排列组合而成的预处理信号;
步骤1.2,以4种构成元素分别作为A、T、C、G四个碱基,将预处理信号作为人工DNA序列,并将人工DNA序列存放在与故障类型对应的序列文件中;其中,每个序列文件中的所有人工DNA序列,构成与故障类型对应的DNA序列集;
步骤2,提取特征序列;
步骤2.1,利用滑动窗口法,从所有DNA序列集的所有人工DNA序列中获取预设长度的窗口序列,并计算窗口序列的特征值;
步骤2.2,利用特征值从所有窗口序列中,选择部分窗口序列作为特征序列;
步骤3,每条人工DNA序列均生成基因特征向量;
计算当前人工DNA序列中A、T、C、G四个碱基的含量、当前人工DNA序列的长度以及预设特征序列分别在当前人工DNA序列中的数量,并组成当前人工DNA序列的基因特征向量;所述预设特征序列是指从所有特征序列中预选得到的部分特征序列;
步骤4,构建训练样本集;
获取v个历史振动信号,均按步骤1-3获取相应的人工DNA序列和基因特征向量,构建v个训练样本(xi,yi),所有训练样本构成训练样本集;其中,yi表示相应历史振动信号的类别标号;
步骤5,针对每种故障类型,均按以下步骤训练相应的LPBoost二分类器,用于负责检测相应的故障类型;
步骤5.1,确定正负训练样本;
按照负责检测的故障类型,从训练样本集中选取训练样本作为正训练样本,其余训练样本作为负训练样本,所述正训练样本的类别标号yi=1,所述负训练样本的类别标号yi=-
1;
步骤5.2,训练弱分类器;
构建M个SVM模型,设定迭代次数t=1,2,...,T,利用训练样本集并采用LPBoost算法对M个SVM模型进行迭代训练,得到M个弱分类器fm(xi)以及相应的权重am,m=1,2,…,M;
步骤5.3,将步骤5.2训练得到的M个弱分类器按以下公式集成,得到LPBoost二分类器:步骤6,对列车转向架进行故障类型检测;
获取待检测列车转向架的实时振动信号,按步骤1获取相应的人工DNA序列,按步骤3生成相应的基因特征向量,并将基因特征向量输入至步骤5得到的每个LPBoost二分类器中,每个LPBoost二分类器均根据基因特征向量进行二分类;最终,对所有LPBoost二分类器的输出值采取投票表决方法,确定待检测列车转向架的故障类型。
2.根据权利要求1所述的方法,其特征在于,步骤2.1的具体过程为:步骤B1,设置窗口的宽度初始值l=lmin及滑动步长 取第1个序列文件作为当前序列文件;
步骤B2,针对当前序列文件,首先将窗口定位在当前序列文件的第1个字符,顺序读出l个字符并组成字符串,作为1个窗口序列;
步骤B3,将窗口向前滑动 个字符,顺序读出l个字符并组成字符串,作为另1个新的窗口序列;重复执行步骤B3,直到读出当前序列文件的最后1个字符;
步骤B4,修改l=l+1,返回步骤B2,直到得到所有字符长度范围为[lmin,lmax]的窗口序列;
步骤B5,取下一个序列文件作为当前序列文件,取窗口的宽度初始值为l=lmin,并返回步骤B2。
3.根据权利要求2所述的方法,其特征在于,lmin=3,lmax=7。
4.根据权利要求1所述的方法,其特征在于,在步骤2.1中每次获取得到预设长度的窗口序列x(l)时,均按以下公式计算该窗口序列x(l)的单条序列重复度F(x(l))、置信度S(x(l))、序列集重复度F(x(l)):其中,F(x(l))表示窗口序列x(l)在人工DNA序列中的单条序列重复度,T(x(l))表示窗口序列x(l)在人工DNA序列中出现的次数,W(l)表示人工DNA序列中序列长度为l的所有窗口序列的总数,且W(l)=L-1+l;
其中,S(x(l))表示窗口序列x(l)在序列集{Li},i=1,2,…,n的置信度,C(x(l))表示窗口序列x(l)在序列集{Li}的所有人工DNA序列中出现的总序列数,n表示序列集{Li}中包括的人工DNA序列的数量;
其中,F(x(l))表示窗口序列x(l)在序列集{Li}的序列集重复度;
表示窗口序列x(l)在序列集{Li}的所有人工DNA序列中出现的总次数; 为序列集{Li}中序列长度为l的所有窗口序列的总数;
所述步骤2.2的具体过程为:
步骤C1,对每个得到的窗口序列的x(l),均判断其单条序列重复度F(x(l))、置信度S(x(l))、序列集重复度F(x(l)),分别是否在预设的单条序列重复度阈值范围、置信度阈值范围和序列集重复度阈值范围内,若均在相应的阈值范围内,,则将该窗口序列x(l)作为当前序列集的候选序列y(l);
步骤C2,计算候选序列y(l)在该序列集{Li}与其余各序列集的相对差α(x(l)),再取平均值作为候选序列y(l)在序列集{Li}的平均相对差其中,候选序列y(l)在该序列集{Li}与序列集A的相对差α(x(l))的计算公式为:式中,FA(y(l))、 分别为候选序列y(l)在A、{Li}这两个DNA序列集中的DNA序列集重复度;
步骤C3,对候选序列y(l),判断其在序列集{Li}的平均相对差 是否在预设的平均相对差阈值范围内,,则将该候选序列y(l)作为当前序列集{Li}的特征序列。
5.根据权利要求1所述的方法,其特征在于,在步骤3中,第i条人工DNA序列中A、T、C、G四个碱基的含量的计算方法为:其中,xi表示第i条人工DNA序列的基因特征向量,x1i、x2i x3i x4i分别为基因特征向量xi中的前4个属性,Length(xi)表示第i条人工DNA序列的长度,countbases(xi)(bases=A,T,C,G)分别表示第i条DNA序列所含有的碱基A、T、C、G的数量。
6.根据权利要求1所述的方法,其特征在于,还需要对步骤3得到的基因特征向量进行归一化预处理,后续步骤对归一化预处理得到的基因特征向量进行处理。
7.根据权利要求1所述的方法,其特征在于,在步骤5.2中,对M个SVM模型进行第t次迭代训练的具体过程为:步骤d1,归一化各训练样本的样本权重 并在当前样本权重下训练第m个弱分类器 其中归一化公式为:步骤d2,计算第m个弱分类器 的分类错误率
式中, xj表示多个样本xi的集合,yj表示
弱分类器的值;
如果 或者 则停止训练过程;
步骤d3,计算弱分类器 的权值
式中,
步骤d4,更新各训练样本的样本权重:
式中, 为概率分布的归一化因子;
步骤d5,返回步骤d1,训练下一个弱分类器 直到训练完M个弱分类器或者满足训练终止条件,则完成对M个弱分类器的第t次训练;
其中,在第1次迭代训练对第1个弱分类器进行训练时,各训练样本的初始样本权重设为:以上一次迭代训练对最后1个弱分类器训练完毕后更新的样本权重,作为下一次迭代训练对第1个弱分类器进行训练的样本权重。
8.根据权利要求1所述的方法,其特征在于,步骤A1中对历史振动信号进行的预处理包括:小波阈值滤波和PCA降维处理,得到预处理信号的4种构成元素分别数字1、2、3、4。
9.根据权利要求1所述的方法,所述投票表决方法具体为:判断每个LPBoost二分类器的输出值是否均为0,若是,则将待检测列车转向架的故障类型作为未知的新故障类型;否则将每个输出值为1的LPBoost二分类器所对应的故障类型,均作为待检测列车转向架的故障类型。