1.一种融合网络拓扑信息的化合物‑蛋白质相互作用预测方法,其特征在于,包括以下步骤:步骤1:对数据进行预处理;
步骤2:根据数据集构建化合物‑蛋白质相互作用网络,计算相互作用网络中每个节点的度,作为节点的中心性度量;
步骤3:对于数据集中每对化合物和蛋白质,计算化合物在相互作用网络中的各相邻节点与蛋白质的共同邻居数,作为化合物对蛋白质的相关性度量;同理得到蛋白质对化合物的相关性度量;
步骤4:构建一个基于transformer的二分类模型,根据得到的节点的中心性度量为每个节点分配一个实值嵌入向量,将其添加到节点特征中;
步骤4.1:构建一个传统的transformer模型,去除解码器的位置编码并将掩码由下三角矩阵变换成邻接矩阵以使解码器只能看到相邻节点;
步骤4.2:根据节点的中心性度量为每个节点分配一个实值嵌入向量,将其添加到节点特征中,方法如下:F=X+Zdeg (1)
其中,F代表最终得到的新的特征向量;X代表氨基酸或者原子的初始特征向量;Z是可学习的嵌入向量,由蛋白质或化合物节点的度指定;
步骤5:为得到的每对节点的相关性的每个可能取值分别分配一个可学习标量,将其作为步骤4所述模型中交叉注意模块的偏置项;
步骤6:最后利用全连接层,输出预测概率。
2.根据权利要求1所述的融合网络拓扑信息的化合物‑蛋白质相互作用预测方法,其特征在于所述步骤1具体为:步骤1.1:对化合物‑蛋白质相互作用数据,蛋白质序列信息,化合物SMILES数据进行预处理,去掉异常值,随机生成负例,随机划分数据集;
步骤1.2:使用seqvec模型编码蛋白质序列;
步骤1.3:使用rdkit提取化合物特征和化合物图的邻接矩阵。
3.根据权利要求1所述的融合网络拓扑信息的化合物‑蛋白质相互作用预测方法,其特征在于所述步骤2具体为:步骤2.1:将原始数据集中的每个化合物和每个蛋白质都作为节点,成对的化合物和蛋白质的正相互作用作为边,构建化合物‑蛋白质相互作用网络;
步骤2.2:计算网络中每个节点的邻居节点的数目,作为节点的度中心性。
4.根据权利要求1所述的融合网络拓扑信息的化合物‑蛋白质相互作用预测方法,其特征在于所述步骤3具体为:步骤3.1:计算并保存相互作用网络中所有蛋白质两两之间的共同邻居以及所有化合物两两之间的共同邻居数;
步骤3.2:对于数据集中每对化合物和蛋白质,根据步骤3.1保存的结果,查找化合物在相互作用网络中的各相邻节点与蛋白质的共同邻居数,记录其中的最大值作为化合物对蛋白质的相关性度量;
步骤3.3:对于数据集中每对化合物和蛋白质,根据步骤3.1保存的结果,查找蛋白质在相互作用网络中的各相邻节点与化合物的共同邻居数,记录其中的最大值作为蛋白质对化合物的相关性度量。
5.根据权利要求1所述的融合网络拓扑信息的化合物‑蛋白质相互作用预测方法,其特征在于所述步骤5具体为:其中, 是传统的注意力权重计算方法,函数φ由节点之间的相关性来定义,Bφ是一个可学习标量,由函数φ的输出值索引,并在所有层中共享。