利索能及
我要发布
收藏
专利号: 2023114137831
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2024-10-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图表示学习的药物‑靶标智能推荐方法,其特征在于,包括:获取待预测的药物‑靶标信息,将其输入到训练好的药物‑靶标智能推荐模型中,得到药物‑靶标交互概率,选取交互概率大于交互阈值的药物‑靶标推荐给用户;

药物‑靶标智能推荐模型的训练过程包括:

S1:获取药物‑靶标信息;药物‑靶标信息包括药物分子信息和氨基酸序列信息;

S2:根据药物分子信息构建初始药物分子嵌入向量;构建初始药物分子嵌入向量的过程包括:S21:构建分层药物分子图并分别对分层药物分子图中的原子节点、motif节点和全局节点进行编码,得到原子嵌入表示、motif嵌入表示和全局嵌入表示;

S22:在原子嵌入表示和motif嵌入表示中均添加节点度信息以更新原子嵌入表示和motif嵌入表示;

S23:根据原子嵌入表示计算得到初始原子嵌入向量;根据motif嵌入表示计算得到初始motif嵌入向量;根据全局嵌入表示计算得到初始全局嵌入向量;初始药物分子嵌入向量由初始原子嵌入向量、初始motif嵌入向量和初始全局嵌入向量组成;计算初始原子嵌入向量的公式为:其中, 表示节点v的第l层隐藏层向量, 表示节点v的第l‑1层隐藏层向量, 为原子嵌入表示; 表示节点v的邻居节点集合,u表示节点v的邻居节点, 表示节点u和节点v间的边的向量表示,d表示 的维度, 和 分别表示第l层中原子和边对应的三层感知器模型;

计算初始motif嵌入向量的方式和计算初始全局嵌入向量相同,计算公式为:

其中,duv表示节点u和节点v之间的注意力系数;

S3:根据氨基酸序列信息构建初始氨基酸序列嵌入向量;构建初始氨基酸序列嵌入向量的过程包括:S31:将氨基酸序列划分为num个token;对token进行编码,得到嵌入矩阵;将嵌入矩阵分别点乘两个不同的线性变换矩阵,得到矩阵Q和V;嵌入矩阵按行作一维卷积得到矩阵K;

S32:从矩阵K中随机抽取num/3个向量K′,根据K′和矩阵Q计算选择参数;剔除选择参数中绝对值小于0.33的元素,对剩余元素降序排序,根据前num/3个值的索引对应到矩阵Q中,若矩阵Q′中的元素小于num/3个,则取所有值的索引对应到矩阵Q中,得到筛选出的矩阵Q′;

计算选择参数的公式为:

其中,choose表示选择参数,Q表示矩阵Q,K′表示向量K′,d′表示向量K′的维度,Row_MaxPooling()表示按列作最大池化,Row_MeanPooling()表示按列作平均池化;

S33:重复步骤S32,得到矩阵Q′与上一次计算出的矩阵Q′取并集作为新的矩阵Q′,最多重复3次;

S34:根据矩阵Q′、K和V计算自注意力,并将原Q矩阵中缺少表示的向量作进一步处理,得到初始氨基酸序列嵌入向量;

S4:采用分层注意力机制对初始药物分子嵌入向量和初始氨基酸序列嵌入向量进行处理,得到更新后的药物分子嵌入向量和氨基酸序列嵌入向量;

S5:拼接药物分子嵌入向量和氨基酸序列嵌入向量,将拼接后的向量输入到全连接层进行处理,得到药物‑靶标交互概率;

S6:计算模型总损失并根据总损失调整模型参数,得到训练好的药物‑靶标智能推荐模型。

2.根据权利要求1所述的一种基于图表示学习的药物‑靶标智能推荐方法,其特征在于,构建分层药物分子图包括:在药物分子的原子层上对药物分子按照motif进行划分,划分得到的每个分子模块作为motif节点;创建新节点作为全局节点,全局节点与motif节点均相连;将原子节点、motif节点和全局节点作为分层药物分子图的节点,将药物分子中原子间的边、motif节点间的边以及全局节点与motif节点的连边作为分层药物分子图的边,得到分层药物分子图。

3.根据权利要求1所述的一种基于图表示学习的药物‑靶标智能推荐方法,其特征在于,得到更新后的药物分子嵌入向量和氨基酸序列嵌入向量的包括:S41:对初始药物分子嵌入向量中的三种嵌入向量做线性变换以统一维度,将线性变换后的初始药物分子嵌入向量中的三种嵌入向量分别和初始氨基酸序列嵌入向量作注意力计算,得到原子注意力矩阵、motif注意力矩阵和全局注意力矩阵;

S42:分别对三种注意力矩阵按行作最大池化处理,得到原子行向量、motif行向量和全局行向量;原子行向量、motif行向量和全局行向量经过softmax激活函数处理后,分别与对应的初始药物分子嵌入向量中的嵌入向量作点积,得到中间药物分子嵌入向量;根据中间药物分子嵌入向量计算得到更新后的药物分子嵌入向量;

S43:分别对三种注意力矩阵按列作最大池化处理,得到原子列向量、motif列向量和全局列向量;原子列向量、motif列向量和全局列向量经过softmax激活函数处理后分别与初始氨基酸序列嵌入向量作点积,得到三种氨基酸序列嵌入表示;将三种氨基酸序列嵌入表示加权求和,得到中间氨基酸序列嵌入表示;对中间氨基酸序列嵌入表示作最大池化处理,得到更新后的氨基酸序列嵌入向量。

4.根据权利要求1所述的一种基于图表示学习的药物‑靶标智能推荐方法,其特征在于,计算模型总损失的公式为:其中,L表示模型总损失,N表示样本数量,ωi表示第i个样本的平滑指数,pi表示第i个样本的药物‑靶标交互概率,γ表示聚焦程度系数, 表示第i个样本的标签, 表示第i个样本中药物和靶标是否存在相互作用的预测结果。