欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021101530448
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,包括以下步骤:步骤1:数据预处理

1.1)对蛋白质序列中的数据进行编码;

1.2)对数据集中每个蛋白质样本进行搜索,生成相应的PSSM矩阵,以实现对氨基酸数据由字母到数字向量转化,为网络分类预测做准备;

步骤2:特征提取

2.1)针对蛋白质二级结构数据,设计一种多尺度卷积注意力神经网络进行特征提取分类,该网络结构采用3通道并联网络架构,在卷积层中配合不同的卷积核大小和数量,来充分提取同一蛋白质序列之间的依赖关系,尽可能的挖掘数据特征;每一层卷积层由特征图以及卷积核组成,卷积核在特征图上按固定步长移动,并且与局部感受野对应位置进行卷积运算,最后经过激活函数得到输出值,形成最后的特征图convC;

2.2)对每个通道提取到的特征图convC进行空间维度和通道维度的注意力感知,将特征图分别进行全局最大池化和全局平均池化操作,得到各自操作的特征向量,然后分别输入同一个多层感知机中,将输出来的结果进行逐元素相加,得到一个通道特征权重向量;将通道特征权重向量与特征图convC逐元素相乘,即可得到通道间注意力特征向量在特征向量 的基础上沿着通道空间维度再次执行全局最大池化和全局平均池化操作,得到各自操作的特征向量,将输出来的结果进行逐元素相加,经过卷积操作,得到一个空间特征权重向量,将空间特征权重向量与 逐元素相乘,即可得到重构特征矩阵步骤3:特征融合将重构特征矩阵 再次卷积后提取出的各通道特征数据进行融合;

步骤4:分类预测

最后在分类预测部分,模型采用3层全连接层操作,输入层接收融合后的特征向量,输出层用Softmax分类器来预测蛋白质二级结构的准确率;

考虑到传统的交叉熵损失函数在训练过程中只考虑了特征的可分性,并没有考虑向量类内与类间相似性这一训练目标,基于交叉熵损失函数添加了相关度量项形成双重损失函数,利用协方差和标准差计算预测向量与真实向量类内与类间正负相关程度;

步骤5:预测结果评价

采取不同评价指标评价预测结果,采用准确性Q3和分段重叠度量Sov两种方法对蛋白质二级结构预测性能进行衡量;

步骤4中,经过Softmax函数输出的一个氨基酸类型概率为 真实标签为y=[y1,y2…yC],y为one‑hot编码形式,C为样本总类别;提出的双重损失函数可以表示为:其中, 为向量y和 的平均值,σ(y)和 为 和 的标准偏差;令

公式(6)可化简为:

根据公式容易得出,ρLOSS是一个介于0和1之间的值,能够加快网络模型收敛的速度,避免了梯度过大产生爆炸。

2.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.1)利用PSI‑BLAST工具调用3次迭代,检测进化矩阵设置为BLOSUM62矩阵,E‑value设置为0.00l。

3.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1.2)所述PSSM矩阵为20*L,其中L是氨基酸序列的长度,20代表氨基酸类型的数量,每个类型代表残基突变成相应氨基酸类型的可能性。

4.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤1)还包括1.3)利用滑动窗口对PSSM矩阵进行进一步处理,通过设置不同尺度的窗口大小,将窗口的中间位置与第一个有效氨基酸字符重合,依次向氨基酸序列尾端移动一个位置,直到移动的次数等于当前切片窗口的氨基酸序列的总长度时,当前氨基酸序列窗口切片处理完成,得到处理后的不同尺度数据。

5.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2在所述3通道并联网络架构中通道1采用3×3卷积核堆叠,通道2采用6×6卷积核堆叠,通道3采用9×9卷积核堆叠。

6.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2.1)中卷积层的运算公式为:其中,i表示层数,xi代表第i层输入向量,yi代表对应的输出向量,wi代表第i层卷积核权重,bi则是对应的权重偏置,max()是相应的非线性激活层函数Relu;神经元仅与其相邻的上一层神经元相连接,通过对学习到的局部特征yi进行组合形成最后的特征图convC。

7.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤2.2)特征向量 计算公式如下:其中, 表示逐元素相加, 表示逐元素相乘,σ()表示Sigmoid激活函数, 和特征向量的计算过程如公式(3)(4)所示:其中 为输出的第k个通道的平均池化权重,xk(i,j)为输入特征层,H*W表示特征矩阵空间维度的信息,max()表示Relu激活函数;

m

xk=max(maxxk(i,j),0) i=1…H;j=1…W (4)m

其中xk为输出的第k个通道的最大池化权重,xk(i,j)为输入特征层,H*W表示特征向量空间维度的信息,max()表示Relu激活函数;

重构特征矩阵 计算公式如下:

cov()表示对合并后的池化矩阵进行卷积操作,σ()表示Sigmoid激活函数,然后将重构特征矩阵 进行再次卷积,dropout操作,将重构特征中低层的局部区域信息通过卷积核激发到更高的层次,突出不同通道数据中的重要特征。

8.根据权利要求1所述的一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法,其特征在于,步骤5中Q3是衡量个别残基分配的精度,计算公式如(8)所示:其中,N为氨基酸残基总数,NE表示为正确预测E类蛋白质结构数,NH为正确预测H类蛋白质结构数,NC为正确预测C类蛋白质结构数;其中,C、H、E表示卷曲、螺旋、折叠三种状态;

其中任意一种二级结构的准确率可表示为:

其中,TPc为c类中预测正确的氨基酸残基个数,nc表示数据中c类的氨基酸残基总数。