1.一种基于混合深度学习模型的蛋白质结构预测方法,其特征在于,包括如下步骤:步骤一、获取氨基酸序列信息
步骤二、获取序列表示向量,并且获取残基标签;
步骤三、将序列表示向量以及残基标签输入训练好的混合深度学习模型中进行计算;
步骤四、获取序列特征结构信息。
2.如权利要求1所述的基于混合深度学习策略预测蛋白质结构特征的方法,其特征在于,在步骤1中,使用PISCES服务获取序列相似度低于25%、长度50‑700的序列作为训练数据集,从PDB数据库中下载对应序列的三维结构文件,用CD‑HIT软件去除和测试数据集相似的序列。
3.如权利要求1所述的基于混合深度学习策略预测蛋白质结构特征的方法,其特征在于,在步骤2中,用Blast套件中psi‑blast软件在UniRef90数据库上对序列比对生成PSSM特征矩阵,对获取的20*LPSSM矩阵,L表示序列长度,其中第i个残基的第j维属性用如下公式Logistic函数归一化;
用HH‑suite套件中hhblits软件在uniclust30_2022_02_hhsuite数据库上序列比对生成30*L的FFIndex特征矩阵,对其中第i个残基的第j维属性用如下公式归一化;
并且用22维的独热编码向量对氨基酸字母进行编码,用7种氨基酸物理化学性质表示残基。
4.如权利要求1所述的基于混合深度学习策略预测蛋白质结构特征的方法,其特征在于,在步骤二中,残基的标签包括二级结构、二面角、溶剂可及表面积。
5.如权利要求1所述的基于混合深度学习策略预测蛋白质结构特征的方法,其特征在于,在步骤二中,计算方法分别如下:八状态的二级结构使用DSSP定义的格式:α螺旋、β折叠、平行或反平行折叠、3氨基酸螺旋、5氨基酸螺旋、氢键转角、大弯折、其他卷曲,单字母表示分别为:H、B、E、G、I、T、S、C(L)。
三状态的二级结构为α螺旋(H)、β折叠(E)和其它卷曲(C)。
且八状态三状态映射,采用两种模式,第一种映射模式(Q3):八状态中的H、G、I映射到三状态H、八状态B、E映射到E,八状态其他结构映射到C;第二种映射模式(Q3_2):八状态H映射到三状态H、八状态E映射到E,八状态其他结构映射到C;
二面角;二面角是围绕Cα‑C单键旋转(C‑N‑Cα‑C)形成的角度,是围绕N‑Cα键旋转(N‑Cα‑C‑N)形成的角度,对角度归一化处理,并且用正弦和余弦三角函数值表示;
溶剂可及表面积;指残基在溶剂中接触到溶液的残基表面积,反映了残基的暴露程度,可用来分析蛋白质折叠状态和疏水性,对残基i的溶剂可及表面积归一化如下公式,Max_SA是该类型氨基酸溶剂可及表面积极大值比值。
6.一种如权利要求1‑6任一所述的混合深度学习模型,其特征在于,包括input层(输入层)、cnn层(卷积层)、Block1层、Block2层、Block3层、FC1层、FC2层;
每层的工作流程如下:
input层(输入层),对序列残基表示的特征向量进行拼接操作,对第i个残基的表示特征PSSM、FFIndex、Coding和PP做合并操作,合并后属性维度79维(不附加PP72维)。分别输入到下一层卷积层、输出前的全连接层(FC2)。
Inputi=PSSMi∪FFIndexi∪Codingi∪PPi (4)对拼接后的数据用一维卷积特征变化操作,输出维度256维,分别输入到下一Block1层和Block3层Block1层;由8个一维卷积网络、一个双向递归神经网络(BRNN)、一个多头注意力(Multi‑head Attention)构成;
在一维卷积网络中,卷积操作公式如下,输入256维,输出32维,卷积核大小即每次参与卷积的残基个数,分别取[1,3,5,7,9,11,13,15],旨在充分提取序列局部特性,拟合二级结构由少数连续残基构成的特性,卷积操作默认激活函数ReLUhi=f(W*xi:i+k‑1+b) (5)
在双向递归神经网络中,单向递归神经网络中使用门限控制单元,公式如下;
其中,σ是激活函数一般用Sigmoid函数,⊙表示矩阵按位乘,rt、zt、和ht分别是复位门、更新门、内部记忆单元和输出,前后向网络汇聚时,Block1和Block3块用拼接操作,Block2块用求和操作。Block1和Block3块的单向GRU网络输入256维,输出256维,汇聚后输出512维;Block2块的单向GRU网络输入256维,输出512维,汇聚后输出512维;
多头注意力网络中,Qi、Ki、Vi输入都是256维,输出32维。一个注意力头headi计算如公式(10),dk值32;
本发明中使用了8个注意力头。将所有head的数据矩阵按照最后一维拼接,输出的Head
256维。对Head输入到全连接网络,用激活函数tanh,将网络输出值限制到(‑1,1),如公式12所示;输出维度256;
Head=head1∪head2...∪head8 (11)O
output=tanh(Head W) (12)
对8个卷积网络输出、1个BRNN输出、1个多头注意力网络输出,按照数据最后一维执行拼接操作,拼接后数据ht维度768,对ht用1×1的卷积神经网络网络降维,输出数据ho256维。ho后接一层Dropout网络,用于抑制网络过拟合性;
ho=Cov1×1(ht) (13)
Block2层,其结构和Block1类似,区别在于BRNN网络汇聚时用“求和”方式;
Block3层,其输入数据来自Block1和Block2,对两组数据按最后一维拼接,并1×1卷积降维到256维;
FC1层,FC1层为全连接神经网络,输入来自Block3层和第一个CNN网络,输出维度1024,激活函数tanh,输出值(‑1,1);
FC2层,FC2层也是全连接神经网络,输入来自FC1和Input,输出为整个模型输出,分别为:八状态二级结构、两种三状态二级结构、两组二面角、溶剂可及表面积;FC2层中输出的二级结构用独热编码表示;
其中,二面角输出用一组正弦、余弦函数表示;对预测结果用 还原为角度,二级结构均使用Softmax激活函数,角度均使用tanh函数,溶剂可及表面积用ReLU函数。
7.如权利要求6所述的混合深度学习模型,其特征在于,
本模型对分类任务和回归任务整合在一起输出,如公式(14)所示,其中,LossSS1是八状态二级结构预测损失函数、LossSS2是三状态二级结构预测损失函数、LossSS3是另外一种三状态二级结构预测损失函数,均使用多分类交叉熵,如公式(15),LossDA_φ和LossDA_ψ分别是 角损失函数,使用均方差函数,如公式(16)。LossRSA是溶剂可及表面积预测损失函数,使用均方差函数,如公式(17);