1.一种化合物激素受体活性预测方法,其特征在于,包括以下步骤:获取已知雌雄激素受体活性的样本化合物数据,其中,所述样本化合物数据包括化合物的SMILES编码和IC50值;
基于所述样本化合物数据中的IC50值绘制IC50值分布图,并根据所述IC50值分布图确定雌雄激素受体活性的强弱的分界点;
根据所述分界点将所述样本化合物数据中的化合物分类为雌雄激素受体活性强和雌雄激素受体活性弱;
将所述样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;
以所述指纹信息描述所述样本化合物数据中的化合物,并以雌雄激素受体活性强和雌雄激素受体活性弱作为标签对所述样本化合物数据中的化合物进行标注,以更新所述样本化合物数据;
通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;
将待预测化合物转换为SMILES编码,并转换为相应的指纹信息;
将所述待预测化合物对应的指纹信息输入所述化合物激素受体活性预测模型,以得到所述待预测化合物的雌雄激素受体活性强/弱的预测结果。
2.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,在BindingDB数据库中获取所述样本化合物数据。
3.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,通过Pandas绘制所述IC50值分布图。
4.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,所述指纹信息为ECFP指纹或MACCS指纹。
5.根据权利要求1所述的化合物激素受体活性预测方法,其特征在于,所述机器学习模型为KNN模型、RF模型或SVM模型。
6.一种化合物激素受体活性预测装置,其特征在于,包括:获取模块,用于获取已知雌雄激素受体活性的样本化合物数据,其中,所述样本化合物数据包括化合物的SMILES编码和IC50值;
绘图模块,用于基于所述样本化合物数据中的IC50值绘制IC50值分布图,并根据所述IC50值分布图确定雌雄激素受体活性的强弱的分界点;
分类模块,用于根据所述分界点将所述样本化合物数据中的化合物分类为雌雄激素受体活性强和雌雄激素受体活性弱;
第一转换模块,用于将所述样本化合物数据中化合物的SMILES编码转换为相应的指纹信息;
更新模块,用于以所述指纹信息描述所述样本化合物数据中的化合物,并以雌雄激素受体活性强和雌雄激素受体活性弱作为标签对所述样本化合物数据中的化合物进行标注,以更新所述样本化合物数据;
训练模块,用于通过更新后的样本化合物数据对机器学习模型进行训练,得到化合物激素受体活性预测模型;
第二转换模块,用于将待预测化合物转换为SMILES编码,并转换为相应的指纹信息;
预测模块,用于将所述待预测化合物对应的指纹信息输入所述化合物激素受体活性预测模型,以得到所述待预测化合物的雌雄激素受体活性强/弱的预测结果。
7.根据权利要求6所述的化合物激素受体活性预测装置,其特征在于,所述获取模块在BindingDB数据库中获取所述样本化合物数据。
8.根据权利要求6所述的化合物激素受体活性预测装置,其特征在于,所述绘图模块通过Pandas绘制所述IC50值分布图。
9.根据权利要求6所述的化合物激素受体活性预测装置,其特征在于,所述指纹信息为ECFP指纹或MACCS指纹。
10.根据权利要求6所述的化合物激素受体活性预测装置,其特征在于,所述机器学习模型为KNN模型、RF模型或SVM模型。