1.一种融合序列及网络嵌入的病毒宿主蛋白‑蛋白相互作用预测方法,其特征在于,包括以下步骤:步骤1:对数据进行预处理;
步骤2:使用Doc2vec方法提取病毒及宿主蛋白质序列特征,对蛋白质序列进行矢量化;
步骤2.1:使用来自SwissProt数据库的长度在30到5000个氨基酸之间的非冗余蛋白质序列,并去除序列相似性>0.5的冗余序列,剩余序列作为训练Doc2vec模型的语料库,训练Doc2vec模型;
步骤2.2:使用训练完的Doc2vec模型获取病毒及宿主蛋白质序列特征,得到病毒及宿主蛋白质序列向量;
步骤3:构建宿主蛋白‑蛋白相互作用网络及病毒蛋白质序列相似性网络;
步骤3.1:根据宿主蛋白质相互作用数据生成宿主蛋白质‑蛋白质之间的相互作用网络;
步骤3.2:利用Smith‑Waterman算法计算各病毒蛋白质之间的相似性,计算方法如下:其中,LS(l(i),l(j))为针对蛋白质构建的相似性矩阵;sw(l(i),l(j))表示两个蛋白质序列的相似性;
步骤4:使用Node2vec算法提取上述两个网络的特征,将网络矢量化后与序列特征进行数量积;
步骤4.1:通过超参数p和q来控制随机游走的策略,采样获取宿主蛋白质相互作用网络节点序列,其中两个节点之间的转移概率为:πvx=αpq(t,x)·ωvx (2)
其中,v是当前的节点,t是v的上一步所在节点,x代表下一步的位置,ω为两节点的边的权重,α为搜索偏置,定义为:其中,p和q为超参数,dtx代表t和x之间的最短距离;
步骤4.2:节点序列通过Skip‑Gram模型得到每个节点的网络特征,计算方法如下:其中: 但由于其计算代价高,采用负采样技术优化;
步骤4.3:将得到宿主蛋白质相互作用网络特征与步骤2得到的宿主蛋白质序列特征进行数量积;
步骤4.4:同样采用步骤4.1和步骤4.2中的方法,对病毒蛋白质序列相似性网络进行网络特征提取,将提取后的网络特征与序列特征进行数量积;
步骤5:根据得到的融合上述两种特征的矩阵,构建长短期记忆网络进行训练,将训练好的模型用于预测。
2.根据权利要求1所述的融合序列及网络嵌入的病毒宿主蛋白‑蛋白相互作用预测方法,其特征在于,所述步骤5具体为:根据得到的融合序列及网络特征的矩阵,构建长短期记忆网络进行学习建模,最终得到预测结果。
3.根据权利要求2所述的融合序列及网络嵌入的病毒宿主蛋白‑蛋白相互作用预测方法,其特征在于,所述长短期记忆网络模型具体为:ft=σ(wf·[ht‑1,xt]+bf) (5)it=σ(wi·[ht‑1,xt]+bi) (6)Ot=σ(wo[ht‑1,xt]+bo) (9)ht=Ot·tanh(Ct) (10)式中,ft表示遗忘门,σ是sigmoid函数,w为权重矩阵,h为隐节点,xt为输入数据,b为偏置向,it表示输入门, 表示单元状态更新值,Ct表示当前时刻的单元状态,Ct‑1为上一次的单元状态,Ot表示输出门。
4.根据权利要求1所述的融合序列及网络嵌入的病毒宿主蛋白‑蛋白相互作用预测方法,其特征在于,所述步骤1具体为:步骤1.1:对病毒宿主蛋白‑蛋白相互作用数据和蛋白质序列信息进行预处理,去掉异常值和缺失值;
步骤1.2:根据相互作用数据生成病毒宿主蛋白‑蛋白相互作用矩阵。