买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于机器学习的子宫内膜癌组织学等级预测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于机器学习的子宫内膜癌组织学等级预测方法

￥24000

专利号： 2023103224412

申请人：鲁东大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-24

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于机器学习的子宫内膜癌组织学等级预测方法，包括核糖核酸序列的预处理、数据去量纲化、G1、G3级子宫内膜癌二元分类模型训练与测试、G2级高低风险亚组分类、生存分析五个过程，其具体步骤如下：步骤1、使用转录组定量工具featureCounts和差异表达分析工具DESeq2对核糖核酸序列进行预处理；以下将核糖核酸简称为RNA；首先将所有RNA序列样本与每种转录本进行比对，统计每个样本中每种转录本的数量，得到一个基因表达矩阵，行表示不同转录本，列表示不同样本，矩阵中的元素为整数，表示该样本RNA序列中该种转录本的数量；进一步需要对这些转录本进行筛选，计算每种转录本数量的平均值，即计算矩阵每行的平均值，得到结果后，删除结果小于4的转录本所在的行；然后对剩余基因表达矩阵进行归一化，最后对矩阵进行转置变换；其中G1、G3级样本组成一个数据集，以下称此数据集为G1G3数据集，G2级样本组成一个数据集，以下称此数据集为G2数据集，步骤1与步骤2都需要对两个数据集单独处理；

步骤2、对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理；使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值，无量纲化的特征值由公式 (1) 确定，其中，表示该特征的均值，表示该特征的标准差；

(1)

步骤3、把步骤2中得到的G1G3数据集作为带有核函数的支持向量机的输入，训练并测试支持向量机模型，得到模型在测试集上的受试者工作特征曲线下面积、准确率和受试者工作特征曲线；以下将受试者工作特征曲线下面积简称为AUC，将受试者工作特征曲线简称为ROC曲线；

步骤4、把步骤2中得到的G2数据集作为步骤3中训练好的支持向量机模型的输入，预测得到G2高风险和G2低风险两个亚组；

步骤5、使用生存分析工具包survival和生存曲线绘制工具包survminer对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析，根据临床数据比较两组的无复发生存期，得到Cox回归检验的显著性水平p值，根据显著性水平p值的大小验证步骤4中的风险分组的有效性。

2.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤1的实现过程如下：

将所有RNA序列样本与每种转录本进行比对，统计每个样本中每种转录本的数量，得到一个基因表达矩阵，行表示不同转录本，列表示不同样本，矩阵中的元素为整数，表示该样本RNA序列中该种转录本的数量；进一步需要对这些转录本进行筛选，计算每种转录本数量的平均值，即计算矩阵每行的平均值，得到结果后，删除结果小于4的转录本所在的行；最后将剩余基因表达矩阵输入差异表达分析工具DESeq2进行归一化处理，对归一化后的矩阵进行转置变换，即可得到提取特征后的数据集。

3.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤2的实现过程如下：

对提取特征后的G1G3数据集和G2数据集分别进行去量纲化处理；使用机器学习库sklearn中的标准差标准化方法standardscaler处理样本的每个特征值，无量纲化的特征值由公式 (1) 确定，公式 (1) 表示数据去量纲化需要三步，计算每个特征在所有样本中的均值和标准差，将所有样本的每个特征值减去对应特征的均值，将得到的结果除以对应特征的标准差，得到的结果即为无量纲化的数据；经过去量纲化处理的数据集服从标准正态分布，可以使模型性能得到提升。

4.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤3的实现过程如下：

随机划分数据集，80%作为训练集，20%作为测试集；比较的四种常用的核函数分别是线性核、多项式核、高斯核和S型核函数，使用AUC和准确率作为模型性能的评价指标；把步骤2中得到的无量纲化的G1G3数据集作为带有核函数的支持向量机的输入，使用机器学习库sklearn中名为SVC的函数构建和训练模型，将测试集输入训练好的模型，得到每个测试样本的预测结果，通过比较四种模型在测试集上和100次交叉验证的AUC和准确率，确定模型使用哪种核函数；最后得到最优模型在测试集上的AUC、准确率和ROC曲线。

5.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤4的实现过程如下：

对步骤2中得到的无量纲化的G2数据集进行分级预测；经过步骤3的模型训练，得到了一个有效的G1G3数据集的二元分类预测模型，猜想G1、G3级癌症与G2级中的高低风险癌症的分类特征相似，因此可以将该训练好的模型应用于G2级癌症的高低风险分级预测；将步骤2中得到的无量纲化的G2数据集作为步骤3中训练好的最优模型的输入，得到G2高风险和G2低风险两个亚组。

6.根据权利要求1所述的一种基于机器学习的子宫内膜癌组织学等级预测方法，步骤5的实现过程如下：

对步骤4中得到的G2高风险和G2低风险两个亚组进行生存分析，验证G2分级预测的有效性；由于G2数据集中所有样本的标签都是G2级，更细分的高低风险是没有标注的，所以需要将G2高风险和G2低风险两个亚组的临床数据输入生存分析工具包survival和生存曲线绘制工具包survminer，比较两组的无复发生存期，得到Cox回归检验的显著性水平p值，根据显著性水平p值的大小验证步骤4中的风险分级的有效性，如果显著性水平p值小于0.05，则证明该分级是有效的。