利索能及
我要发布
收藏
专利号: 2021105924434
申请人: 湖南工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,包括以下步骤:

步骤1:LPI特征提取,先获取已知的lncRNA序列、蛋白质序列,运用Pyfeat对所获得的lncRNA序列进行数字特征提取,形成相应的多维向量A,运用BioTriangle对所获得的蛋白质序列进行数字特征提取,形成相应的多维向量B;

步骤2:特征降维,基于主成分分析(PCA)分别对lncRNA和蛋白质原始特征进行降维,得到两个d维向量,将获得的两个d维特征向量连接起来,将lncRNA‑蛋白质对表示为2d维向量x;

步骤3:建立LPI预测框架模型,将2d维向量x与表示lncRNA‑蛋白质对的对应标签表示为D={X,Y}的LPI数据集,LPI网络表示为一个矩阵Y:假设D={X,Y}表示LPI数据集,其中(,Y)表示lncRNA‑蛋白质对,x∈X表示二维特征向量,y∈Y表示lncRNA‑蛋白质对的对应标签;

步骤4:LPI分类,建立由FIR网络和MLP网络组成的双神经网络结构的深度学习模型,FIR网络根据上一次迭代中MLP网络获得的分类结果选择最优的LPI特征子集,MLP网络基于FIR网络中提取的最佳LPI特征子集对lncRNA‑蛋白质对进行分类,这两个网络在数据集上交替训练;

步骤5:利用FIR网络生成最优LPI特征子集,而MLP网络根据最优LPI特征子集训练得到的参数对未知lncRNA‑蛋白质对进行分类。

2.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,在所述的LPI预测框架中,设m∈M表示由值为0或1的元素组成的2d维掩码向量,||m||0=s,s<2d,并且 掩码向量 表示任意lncRNA‑蛋白质对x的s个特征的子集,其中表示哈达玛积;假设Q(x,m)表示通过屏蔽了部分特征之后,MLP网* *

络训练得到的预测性能,基于得分对其进行排序:(m ,Score(m))=argmaxm∈M∑x∈XQ(x,m),* *

其中m表示所得性能最好的掩码子集,Score(m)表示其特征子集的重要性得分,使用所选择的最佳特征子集来计算每个lncRNA‑蛋白质对的标签。

3.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,在候选LPI特征子集 中加入噪声,以增强随机局部搜索能力,其中M′在学习期间可能改变,将训练样本(x,y)∈D结合掩码转换为: 使用不同的特征子集对MLP网络进行训练,学习fMLP:X×M→Y,MLP网络的损失函数定义为:其中 表示在训练期间的

二进制交叉熵损失。

4.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,在MLP网络中的所有中间层的激活函数使用sigmoid,最终输出层的激* *

活函数使用softmax,使用训练好的网络fMLP(α;x;m)来预测数据集上LPI。

5.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,FIR网络根据MLP网络的预测结果选择最优的LPI特征子集,对于每个lncRNA‑蛋白质对x∈X,通过最大的Q(x,m)来寻找最优LPI特征子集,并对特征进行排序,通* *

过Score(m)生成m的最佳特征子集,FIR网络上的损失函数定义为:在FIR网络中,所有中间

* *

层使用sigmoid函数激活,最终输出层使用线性函数作为激活函数,训练后的fFIR(β;x;m)*

具有最优参数β,用于提取测试数据集上的最优特征。

6.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,在学习过程中,FIR网络协助MLP网络提供最优的LPI特征子集|M′|,而MLP网络将所有m∈M′的损失 反馈给FIR网络。

7.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,MLP网络经过若干次训练,直到在不同的LPI特征子集上产生稳定的性能,在每次训练中,从M中随机提取不同掩码的特征子集M′1,其中,Random(M,s)表示从M中随机提取由s个1和(2d‑s)个0组成的2d维掩码的函数,α通过NAdam方法进行训练: 其中η表示学习速率,在E次训练之后:α1=α″(E), 将上述参数输入到FIR网络。

8.根据权利要求7所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,在第t步,由MLP网络提供FIR网络中的训练样本m:首先随机初始化β1,然后使用Adam方法来更新参数β:在第t+1步产生一个新的掩码特征子集M′t+1,应用于FIR网络,将特征子集M′t+1分成两个互斥的子集:M′t+1=M′t+1,1∪M′t+1,2,用随机函数来生成M′t+1,1,通过增加噪声来减少过拟合。

9.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互作用方法,其特征在于,训练的整体流程如下:阶段I:初始化最优特征子集mt+1,opt:(1):计算

(2):通过以下四步计算出贡献最高的s个特征a.通过 计算贡献排名前s的特征,其中b.用 中梯度最大的特征替换mopt中的特征,重新生成最优特征子集;

c.通过 生成最佳LPI特征子集;

d.重复(2)‑(3)直到fFIR(βc+1;mopt)≤fFIR(βt+1;m′opt)获得最优子集mt+1,opt;

阶段II:通过扰动生成多个最优LPI特征子集:基于扰动函数Perturb(mopt,sp)随机将sp(sp

(2)重复扰动函数并获得多个最佳LPI特征子集mi|mi=Perturb(mt+1,opt,sp);

阶段III:集成最优LPI特征子集候选:(1)使mt,best成为LPI最佳特征子集候选,其有助于MLP网络在第t步的预测;

(2)根据阶段I和II得到特征子集:FIR网络根据上述训练过程为MLP网络提供最优LPI特征子集M′t+1=M′t+1,1∪M′t+1,2,然后通过随机局部搜索方法在M′t+1上训练参数: 交替训练FIR网络和MLP网络,直到得到预定的结果为止。

10.根据权利要求1所述的基于深度学习的双神经网络结构预测lncRNA-蛋白质相互* *

作用方法,其特征在于,在完成训练之后,得到最优的FIR网络和MLP网络的参数β和α,利用下面算法对lncRNA‑蛋白质对进行分类:(1)计算梯度 其中

*

(2)找出排名前s的LPI特征,通过 得到m ;

*

(3)基于前述算法得到最优特征子集m;

(4)根据 获取最优LPI特征子集;

(5)用训练好的MLP网络 预测lncRNA‑蛋白质对得到标签。