1.一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于利用分子结构图特征、分子指纹特征和分子描述符特征,并使用三元混合级融合卷积神经网络预测化合物通过血脑屏障的渗透性,该方法包括以下步骤:S1、对于获取到的化合物,提取所述化合物的SMILES表达式,并利用化学工具包生成所述化合物的分子结构图;
S2、进行数据预处理操作:提取所述分子结构图的分子结构图特征集MGF;根据所述化合物的SMILES表达式提取分子指纹特征集MFF和分子描述符特征集MDF;对MGF进行特征筛选得到主成分结构特征集P‑MGF,对MFF进行特征筛选得到主成分指纹特征集P‑MFF,对MDF进行特征筛选得到主成分描述符特征集P‑MDF;对P‑MGF、P‑MFF、P‑MDF依次进行归一化得到归一化结构特征集 、归一化指纹特征集 、归一化描述符特征集 ;
所述数据预处理操作的具体步骤包括:
S21、构建增强邻居注意力网络AN‑GAT对所述分子结构图进行特征提取,得到MGF;使用化学工具包生成所述化合物的MFF和MDF;
所述构建AN‑GAT的具体内容包括:
S211、在所述分子结构图中,对于任意相邻的原子i和j,计算它们之间的注意力得分 ,的计算公式如下所示:其中, 是注意力权重矩阵,表示特征拼接操作, 是激活函数,和 是i和j的特征向量,其中特征向量是通过将原子和化学键的属性编码成数值形式而得到的;
S212、使用以下公式,更新i的特征向量:
其中, 表示更新后的原子i的特征向量,表示原子 j的特征向量,z表示调节求和结果幅度的参数, 表示与原子i相邻的原子集合, 表示 的指数函数;
S213、重复执行S211和S212,直到达到预设的迭代次数;
S22、依次针对MGF、MFF和MDF进行特征筛选操作,去除方差较小的特征,得到筛选后的特征集依次为P‑MGF、P‑MFF、P‑MDF;
S23、对P‑MGF、P‑MFF、P‑MDF分别计算归一化值,依次得到 、 、 ,具体的归一化公式如下式所示:其中,为P‑MGF、P‑MFF或者P‑MDF中的特征, 为P‑MGF、P‑MFF或者P‑MDF经过归一化处理后的特征,i的取值范围为{1,2,3}, 为P‑MGF、P‑MFF或者P‑MDF中对应特征的平均值,是对应特征的标准差, 为P‑MGF、P‑MFF或者P‑MDF中对应特征的最小值,和 是与BBB透过性相关的调整因子,是一个微小的偏移量,用于避免分母为零;
S3、构建三元混合级融合卷积神经网络,设计一个三元模块处理 、 、 依次得到第一特征 、第二特征 、第三特征 ,将 、 、通过拼接层得到融合特征 ,依次运用全连接层、输出层来处理 ,预测得到所述化合物的BBB标签;
所述三元混合级融合卷积神经网络包含卷积层、池化层、拼接层、全连接层和输出层,构建三元混合级融合卷积神经网络的具体步骤包括:S31、构建三元模块,所述的三元模块包括 处理模块、 处理模块、 处理模块;
所述的 处理模块是指依次运用卷积层、池化层、全连接层来处理 ,其中,首先利用所述卷积层对 进行卷积,并使用所述池化层进行特征池化,然后通过所述全连接层进行计算,得到第一特征 ,计算公式如下所示:其中, 和 分别表示全连接层的权重和偏置, 表示将特征图展平为一维向量,是模型平滑调整因子,用于降低特征之间的噪声影响, 表示对 进行卷积操作, 表示对卷积后的特征图进行池化操作;
所述的 处理模块是依次运用卷积层、池化层、全连接层来处理 ,其中,首先利用所述卷积层对 进行卷积,并使用所述池化层进行特征池化,然后通过所述全连接层进行计算,得到第二特征 ,计算公式如下所示:其中, 表示对 进行卷积操作, 表示对卷积后的特征图进行池
化操作;
所述的 处理模块是指使用所述全连接层来处理 ,得到第三特征 ,计算公式如下所示:S32、通过所述拼接层将 、、进行拼接,得到融合特征 :
其中,表示特征拼接操作;
S33、依次运用全连接层、输出层来处理 ,在所述输出层采用 激活函数进行分类,计算公式如下所示:其中, 和 是全连接层的权重和偏置, 和 是输出层的权重和偏置, 表示矩阵 的转置, 表示修正线性单元激活函数, 是预测的BBB标签;
S4、训练所述三元混合级融合卷积神经网络,将 、 、 输入到所述三元混合级融合卷积神经网络中,进行参数调整以得到最佳预测网络;
S5、将待测化合物经过S1和S2,得到所述待测化合物的归一化结构特征集 、归一化指纹特征集 、归一化描述符特征集 ,将 、 、 输入至所述最佳预测网络,预测得到所述待测化合物的BBB标签。
2.根据权利要求1所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的S22中,特征筛选方法的具体步骤包括:S221、计算初始阈值 ,计算公式如下所示:
其中,是预设的调节因子,用于确定 的大小, 是MGF、MFF或MDF中所有特征的方差的平均值;
S222、使用 判断MGF、MFF和MDF中每一个特征h的重要性,当h的方差低于 ,则认为h是不重要的或者不具有足够的信息量,h被舍弃,统计被舍弃的h的数量 ;
S223、根据 动态调整阈值,如果 大于警戒值M,说明阈值过高,需要逐步降低阈值;反之,说明阈值过低,需要逐步提高阈值,具体公式如下所示:其中, 是当前阈值, 是在 基础上调整后的阈值,是小于1的调整因子,是大于1的调整因子,用于控制阈值的调整步长;
S224、重复执行S221至S223,直到阈值处于合适的区间内。
3.根据权利要求1所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的S4中,训练三元混合级融合卷积神经网络的具体步骤包括:S41、将 、 、 输入到所述三元混合级融合卷积神经网络中进行BBB标签预测,得到BBB预测标签数据;
S42、对所述BBB预测标签数据和真实标签进行损失计算,计算公式如下:
其中,是样本数量, 是第p个样本的真实标签, 是第p个样本的BBB预测标签,是损失函数值,表示预测标签与真实标签的差异,数值越小表示模型预测越准确;
S43、调整所述三元混合级融合卷积神经网络的权重参数 ,具体的调整公式如下:其中,是学习率,是正则化系数, 表示 关于 的偏导数, 是神经网络的第层的权重参数, 是调整后的第 层的权重参数;
S44、重复执行S41到S43,直至 收敛或达到预设的迭代次数,将经参数调整后的三元混合级融合卷积神经网络作为所述最佳预测网络。
4.一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测装置,用于运行权利要求1‑3任一所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,包括化合物数据获取模块、数据预处理模块、构建三元混合级融合卷积神经网络模块、训练三元混合级融合卷积神经网络模块和化合物BBB渗透性预测模块;
所述化合物数据获取模块用于:对于获取到的化合物,提取所述化合物的SMILES表达式,并利用化学工具包生成所述化合物的分子结构图;所述数据预处理模块用于:提取所述分子结构图的分子结构图特征集MGF,根据所述化合物的SMILES表达式提取分子指纹特征集MFF和分子描述符特征集MDF;对MGF进行特征筛选得到主成分结构特征集P‑MGF,对MFF进行特征筛选得到主成分指纹特征集P‑MFF,对MDF进行特征筛选得到主成分描述符特征集P‑MDF;对P‑MGF、P‑MFF、P‑MDF依次进行归一化得到归一化结构特征集 、归一化指纹特征集、归一化描述符特征集 ;所述构建三元混合级融合卷积神经网络模块用于:构建三元混合级融合卷积神经网络,设计三元模块处理 、 、 ,得到第一特征 、第二特征 、第三特征 ,将 、、通过拼接层得到融合特征 ,依次运用全连接层、输出层来处理 ,预测得到所述化合物的BBB标签;所述训练三元混合级融合卷积神经网络模块用于:训练所述三元混合级融合卷积神经网络,将 、 、 输入到所述三元混合级融合卷积神经网络中,进行参数调整以得到最佳预测网络;所述化合物BBB渗透性预测模块用于:运用最佳预测网络,进行待测化合物样本的预测。