利索能及
我要发布
收藏
专利号: 2023105709545
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-05-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于可充分考虑类别样本数量不均衡对预测结果的影响,并运用多个学习器进行融合预测以提升预测效果,该方法包括以下步骤:第一步,收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,由此形成初始的数据集;

第二步,对数据集进行包括特征生成、数据归一化、特征筛选、样本数量均衡化等数据预处理操作;

第三步,构建基学习器选择模块,根据输入已经过预处理的BBB数据,设计一种基学习器选择机制,用于选择堆叠学习算法的基学习器;

第四步,构建融合学习器遴选模块,将基学习器的预测结果构造成一个堆叠矩阵,对比该堆叠矩阵在不同学习器中的训练结果,遴选出堆叠学习算法的最佳融合学习器;

第五步,根据基学习器选择模块选出的基学习器和融合学习器遴选模块遴选出的融合学习器,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;

第六步,运用该预测模型进行化合物的BBB渗透性预测。

2.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第二步中,包括有:(1)获取数据集中每一个化合物样本所对应的SMILES分子式,并使用分子描述符构建工具,基于SMILES分子式构建出分子描述符,最终得到整个数据集的特征向量;

(2)对特征向量进行归一化处理:本发明所选的归一化方法为标准差归一化(Standard scaling),使用到的归一化公式如下式所示:其中 为化合物输入特征,X.mean()为整个数据集的均值,X.std()为整个数据集的标准差, 为归一化后的值;

(3)对特征向量进行筛选:去除对于化合物的BBB渗透性预测影响较低的特征;

(4)对数据集进行样本数量均衡化操作:将BBB‑的化合物样本数量与BBB+的化合物样本数量基本一致,有助于避免不同类别的数据量差异较大而导致训练出来的模型对不同类别的预测能力差距较大,从而提升模型的泛化能力。

3.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的特征向量筛选步骤包括:(1)剔除方差小于0.08的特征;

(2)基于额外树算法根据重要性权重选择特征;

(3)使用基于的随机森林(Random Forest, RF)算法的递归特征消除来去除最不重要的特征。

4.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的样本数量均衡化操作的具体步骤包括:(1)计算需要生成的BBB‑样本数G,公式为:

其中 为BBB+样本数, 为BBB‑样本数,为平衡值,取1时表示均衡化后的BBB+样本数与BBB‑样本数的比例为1:1;

(2)基于欧氏距离(Euclidean Distance),对所有少数类样本计算K近邻中多数类样本数的占比r:其中 为K近邻中多数类的样本数,为第i个少数类样本周围多数类样本数占所有样本数的比例,i = 1, 2, …,  ;

(3)对 进行标准化:

(4)基于需要生成的总样本数G以及标准化后每个少数类样本周围的多数类样本数 ,计算每个少数类样本需要生成的新少数类样本数 ,公式如下:(5)对于每个少数类样本 ,在该样本与其他少数类样本之间的随机位置,生成 个新少数类样本,生成公式如下:其中 为新生成的样本, 为少数类样本 在K近邻中随机一个相邻的少数类样本,为随机数,取(0, 1),为防止新生成的样本覆盖原有样本,不能取0或1。

5.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第三步中,基学习器选择模块的具体内容包括:(1)分别构建多个学习器个体,包括但不限于逻辑回归(Logistic Regression, LR)、多层感知机(Multilayer perceptron, MLP)等,并将这些学习器个体构成一个学习器集合;

(2)设计一种堆叠学习算法的基学习器选择机制,从学习器集合中选择若干个最适合的学习器个体作为堆叠学习算法的基学习器。

6.根据权利要求5所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的基学习器选择机制,具体内容包括:(1)将完成预处理的BBB数据分别输入到学习器集合中的所有学习器个体中,获取这些学习器个体各自的训练性能P、训练耗时T;

(2)对于任意两个学习器个体 和 ,计算它们之间的差异值 ,由于堆叠学习算法是基于各基学习器取长补短的原理,因此各基学习器之间需要有足够大的差异值来保证良好的模型预测效果;

(3)根据 和 对于堆叠学习算法的贡献度 ,选择贡献度最大的若干对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器。其中学习器个体 对于堆叠学习算法的贡献度的计算公式如下:

7.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第四步中,融合学习器遴选模块的具体内容包括:(1) 将已选出的k个学习器个体作为堆叠学习算法的基学习器,紧接着输入经过预处理的BBB数据到这些基学习器中进行训练,得到k种不同的预测结果,其中预测结果是指基学习器预测输入的化合物样本是否能透过BBB的结果;

(2) 从学习器集合中,任意选择一个学习器作为融合学习器:将第一步中得到的k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵;然后将该堆叠矩阵输入到融合学习器中进行预测,得到唯一的预测结果,这个预测结果就是对原先k种不同预测结果的融合;

(3) 重复上一步,直至学习器集合中的所有学习器均被使用,并记录这些学习器作为融合学习器时的预测结果,对比所有的预测结果,依据AUC指标排列,遴选出最好结果者作为最佳融合学习器。

8.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第五步中,具体步骤包括:(1) 构建化合物BBB渗透性预测模型的原型:输入的数据经过数据预处理后,交付给完成选择的k个基学习器分别进行预测,得出的k种预测结果构造成一个k列堆叠矩阵,交付给最佳融合学习器预测,由此得到的融合预测结果作为预测模型的预测结果;

(2) 使用网格搜索算法对上一步得到的化合物BBB渗透性预测模型进行参数调优:分别给出k个基学习器以及融合学习器各自需要调优的参数列表,参数列表以网格形式排列,构成模型参数的所有搭配可能;由算法调用模型并根据参数列表自动设置参数进行训练,获取并记录每次不同参数的结果,最终输出结果最佳的模型参数,完成模型的调参优化。

9.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第六步中,具体方法为:应用同一数据集,将本发明的化合物BBB渗透性预测模型与传统预测模型包括但不限于LR、MLP和RF进行预测结果比较,进行比较时,选用AUC、MCC、SE和SP作为模型的评估指标。

10.一种基于堆叠学习算法的化合物BBB渗透性预测装置,用于运行权利要求1‑9任一所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,包括化合物数据获取模块、数据预处理模块、基学习器选择模块、融合学习器遴选模块、堆叠学习模型训练模块、化合物BBB渗透性预测模块;

所述化合物数据获取模块用于:收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,构成初始的数据集;所述数据预处理模块用于:清洗待训练数据集中重复或异常的数据样本、生成数据集的特征向量,并进行特征筛选以及样本数量均衡化等操作;所述基学习器选择模块用于:根据输入的经过预处理的BBB数据集选择堆叠学习算法的最佳基学习器;所述融合学习器遴选模块用于:根据输入的特征向量选择堆叠学习算法的最佳融合学习器;所述基于堆叠学习算法的化合物BBB渗透性预测模型构建模块用于:根据输入的经过预处理的BBB数据,以及完成选择的最佳基学习器和融合学习器,构建基于堆叠学习算法的预测模型原型,并完成参数调优,最终获得训练好的化合物BBB渗透性预测模型;所述化合物BBB渗透性预测模块用于:采用训练好的化合物BBB渗透性预测模型,进行未知化合物样本的预测。