利索能及
我要发布
收藏
专利号: 2022103808611
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,包括如下步骤:S1,获取癌症样本和正常样本的miRNAs表达谱数据;

S2,去除低表达量的miRNAs表达谱数据,将剩余的miRNAs表达谱数据分成癌症样本集和正常样本集;

S3,分别构建癌症样本集和正常样本集的miRNA邻居频数矩阵;

S4,对于待测样本,基于统计语言模型分别计算其在癌症样本集和正常样本集中的统计概率;

S5,将待测样本在癌症样本集和正常样本集中的统计概率值,以及概率值的差值共同作为癌症分类器的分类特征,构建癌症分类器;

S6,将待测样本输入到癌症分类器中进行分类,获得分类结果;

所述S3包括:

根据miRNAs表达值从小到大对癌症样本集中的miRNAs表达谱数据进行排序,从而获得邻居miRNAs大小关系信息;

将“相等”和“小于”关系的邻居miRNAs分别统计到两个大小相同的矩阵中,矩阵大小均是m×m,表示m行m列的矩阵;m表示miRNAs的数量,n表示样本的个数;

根据miRNAs表达值从小到大对正常样本集中的miRNAs表达谱数据进行排序,从而获得邻居miRNAs大小关系信息;

将“相等”和“小于”关系的邻居miRNAs分别统计到两个大小相同的矩阵中,矩阵大小均是m×m,表示m行m列的矩阵;

所述S4包括:

根据miRNAs表达值从小到大对待测样本中的miRNAs表达谱数据进行排序,构成自然语言模型中的长语句;

将长语句放入到癌症样本集中计算得到统计概率值P1;

将长语句放入到正常样本集中计算得到统计概率值P2。

2.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S1包括:从TCGA数据库中获取癌症样本和正常样的本miRNAs表达谱数据。

3.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S2包括:若miRNAs表达谱数据在80%以上的样本中的表达值均为0,就将该miRNAs表达谱数据删除,最终获得一个m×n的矩阵,其中m表示miRNAs的数量,n表示样本的个数;所述的样本包括癌症数据集和正常数据集;

根据样本名称末尾两位编号将miRNAs表达谱数据分成癌症样本集和正常样本集:若编号属于区间[01,09],则样本属于正常样本集;若编号大于等于10,则样本属于癌症样本集;

从而得到癌症样本集(m×n1)和正常样本集(m×n2),其中n1表示癌症样本的miRNAs表达谱数据的个数、n2表示正常样本的miRNAs表达谱数据的个数。

4.根据权利要求1所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述S5包括:通过P1和P2构建新的特征delt_P,delt_P=P1‑P2;

将P1、P2、delt_P作为分类特征,构建癌症分类器。

5.根据权利要求4所述的基于miRNAs表达谱和自然语言模型的癌症分类方法,其特征在于,所述构建癌症分类器,为基于支持向量机、随机森林、逻辑回归和梯度提升决策树机器学习模型构建癌症分类器。