利索能及
我要发布
收藏
专利号: 2023103224412
申请人: 鲁东大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-24
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于机器学习的子宫内膜癌组织学等级预测方法,包括核糖核酸序列的预处理、数据去量纲化、G1、G3级子宫内膜癌二元分类模型训练与测试、G2级高低风险亚组分类、生存分析五个过程,其具体步骤如下:步骤1、使用转录组定量工具featureCounts和差异表达分析工具DESeq2对核糖核酸序列进行预处理;以下将核糖核酸简称为RNA;首先将所有RNA序列样本与每种转录本进行比对,统计每个样本中每种转录本的数量,得到一个基因表达矩阵,行表示不同转录本,列表示不同样本,矩阵中的元素为整数,表示该样本RNA序列中该种转录本的数量;进一步需要对这些转录本进行筛选,计算每种转录本数量的平均值,即计算矩阵每行的平均值,得到结果后,删除结果小于4的转录本所在的行;然后对剩余基因表达矩阵进行归一化,最后对矩阵进行转置变换;其中G1、G3级样本组成一个数据集,以下称此数据集为G1G3数据集,G2级样本组成一个数据集,以下称此数据集为G2数据集,步骤1与步骤2都需要对两个数据集单独处理;

步骤2、对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理;使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值  ,无量纲化的特征值  由公式 (1) 确定,其中,表示该特征的均值,表示该特征的标准差;

   (1)

步骤3、把步骤2中得到的G1G3数据集作为带有核函数的支持向量机的输入,训练并测试支持向量机模型,得到模型在测试集上的受试者工作特征曲线下面积、准确率和受试者工作特征曲线;以下将受试者工作特征曲线下面积简称为AUC,将受试者工作特征曲线简称为ROC曲线;

步骤4、把步骤2中得到的G2数据集作为步骤3中训练好的支持向量机模型的输入,预测得到G2高风险和G2低风险两个亚组;

步骤5、使用生存分析工具包survival和生存曲线绘制工具包survminer对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析,根据临床数据比较两组的无复发生存期,得到Cox回归检验的显著性水平p值,根据显著性水平p值的大小验证步骤4中的风险分组的有效性。

2.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法,步骤1的实现过程如下:

将所有RNA序列样本与每种转录本进行比对,统计每个样本中每种转录本的数量,得到一个基因表达矩阵,行表示不同转录本,列表示不同样本,矩阵中的元素为整数,表示该样本RNA序列中该种转录本的数量;进一步需要对这些转录本进行筛选,计算每种转录本数量的平均值,即计算矩阵每行的平均值,得到结果后,删除结果小于4的转录本所在的行;最后将剩余基因表达矩阵输入差异表达分析工具DESeq2进行归一化处理,对归一化后的矩阵进行转置变换,即可得到提取特征后的数据集。

3.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法,步骤2的实现过程如下:

对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理;使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值 ,无量纲化的特征值 由公式 (1) 确定,公式 (1) 表示数据去量纲化需要三步,计算每个特征在所有样本中的均值 和标准差 ,将所有样本的每个特征值 减去对应特征的均值 ,将得到的结果除以对应特征的标准差 ,得到的结果即为无量纲化的数据 ;经过去量纲化处理的数据集服从标准正态分布,可以使模型性能得到提升。

4.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法,步骤3的实现过程如下:

随机划分数据集,80%作为训练集,20%作为测试集;比较的四种常用的核函数分别是线性核、多项式核、高斯核和S型核函数,使用AUC和准确率作为模型性能的评价指标;把步骤2中得到的无量纲化的G1G3数据集作为带有核函数的支持向量机的输入,使用机器学习库sklearn中名为SVC的函数构建和训练模型,将测试集输入训练好的模型,得到每个测试样本的预测结果,通过比较四种模型在测试集上和100次交叉验证的AUC和准确率,确定模型使用哪种核函数;最后得到最优模型在测试集上的AUC、准确率和ROC曲线。

5.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法,步骤4的实现过程如下:

对步骤2中得到的无量纲化的G2数据集进行分级预测;经过步骤3的模型训练,得到了一个有效的G1G3数据集的二元分类预测模型,猜想G1、G3级癌症与G2级中的高低风险癌症的分类特征相似,因此可以将该训练好的模型应用于G2级癌症的高低风险分级预测;将步骤2中得到的无量纲化的G2数据集作为步骤3中训练好的最优模型的输入,得到G2高风险和G2低风险两个亚组。

6.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法,步骤5的实现过程如下:

对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析,验证G2分级预测的有效性;由于G2数据集中所有样本的标签都是G2级,更细分的高低风险是没有标注的,所以需要将G2高风险和G2低风险两个亚组的临床数据输入生存分析工具包survival和生存曲线绘制工具包survminer,比较两组的无复发生存期,得到Cox回归检验的显著性水平p值,根据显著性水平p值的大小验证步骤4中的风险分级的有效性,如果显著性水平p值小于0.05,则证明该分级是有效的。