利索能及
我要发布
收藏
专利号: 2023106779333
申请人: 西安邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述基于注意力机制及多粒度层级特征抗癌肽识别方法包括:首先,通过迁移学习方式学习到原子级别的特征,然后,通过卷积神经网络和自注意力机制学习氨基酸序列以及蛋白质二级结构特征,最后,通过超图注意力网络模型捕获多序列之间关系特征;所述基于注意力机制及多粒度层级特征抗癌肽识别方法的具体步骤包括:步骤一,获取抗癌肽数据集;

步骤二,原子级别的特征提取:将获得的原子序列特征传入分子预训练神经网络模型中获取原子级别特征;

步骤三,氨基酸序列级别的特征提取:获取到的抗癌肽数据集为序列数据,通过序列特征提取以及二级结构特征提取进行特征提取,将获得的序列特征和二级结构特征进行拼接得到最终的氨基酸序列特征;

步骤四,多序列相似性关系特征提取:划分子序列,构建超图,利用超图注意力特征提取模型学习多序列相似性关系特征;

步骤五,多层级特征融合提取:将分别获得的原子层特征,氨基酸序列层特征和多序列关系层特征进行拼接,然后传入由多层线性网络构成的提取器进行最终的融合提取,然后输出最终的类别概率。

2.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤二中的原子序列特征的获取方式为:获取抗癌肽数据集后,通过在线服务器Phyre2进行氨基酸序列的解析,将每个氨基酸序列分解为以原子基团为最小粒度的原子序列。

3.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤二中的分子预训练神经网络模型采用编码器的变体VQ‑VAE作为上下文感知标记器,编码原子为有意义的离散值,用于扩大原子词汇和减轻原子之间的定量差异,并且通过扩大原子的“词汇量”,提出一种新的节点级预训练任务,并通过预训练图神经网络来预测屏蔽离散值。

4.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤三序列特征提取的具体步骤包括:通过不同的序列编码方式对氨基酸序列进行编码,将不同的编码组合得到序列特征向量,然后通过多层卷积对序列特征进行提取。

5.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤三中的二级结构特征提取的具体步骤包括:通过ChouFasman算法获得氨基酸的二级结构序列,然后传入多层自注意力机制中进行二级结构特征提取。

6.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤四构建超图的具体步骤包括:首先,将序列分解为一组子序列,作为序列的主要特征表现形式,然后,将这一组子序列表示为超图的节点,每个包含一组子序列的序列都是一个超边;每个超边通过一些共享节点作为子序列与其他超边连接。

7.如权利要求1所述的基于注意力机制及多粒度层级特征抗癌肽识别方法,其特征在于,所述步骤四中的超图注意力特征提取模型包括使用类标签进行优化的两级注意网络,两级注意网络分别是对于超边特征的注意力聚合层和对于节点特征的注意力聚合层。

8.一种用于实施权利要求1 7任意一项所述的基于注意力机制及多粒度层级特征抗癌~肽识别方法的基于注意力机制及多粒度层级特征抗癌肽识别系统,其特征在于,所述基于注意力机制及多粒度层级特征抗癌肽识别系统包括:数据获取模块,用于获取抗癌肽数据集;

原子级别特征提取模块,用于将获得的原子序列特征传入预训练模型中获取原子级别特征;

氨基酸序列特征提取模块,用于进行序列特征提取以及二级结构特征提取,并将获得的序列特征和二级结构特征进行拼接得到最终的氨基酸序列特征;

多序列相似性关系特征提取模块,用于划分子序列,构建超图,利用超图注意力特征提取模型学习多序列相似性关系特征;

多层级特征融合提取模块,用于将分别获得的原子层特征、氨基酸序列层特征和多序列关系层特征进行拼接,然后进行最终的融合提取,输出最终的类别概率。

9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1

7任意一项所述的基于注意力机制及多粒度层级特征抗癌肽识别方法的步骤。

~