欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021101963656
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,包括步骤如下:A、训练癌症基因分类模型

(1)获取训练数据

第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;

第二阶段:使用非监督神经网络获得特征子集最佳表示;

(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;

B、癌症基因分类

将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因;

基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析、RReliefF算法和随机森林算法;全面特征选择的实现过程如下:(1.1)通过方差分析及RReliefF算法对原始数据进行特征选择,得到候选特征子集;

(1.2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。

2.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,原始数据是指癌症微阵列数据。

3.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过所述第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。

4.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.1)的具体实现步骤包括:a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;

Var(x)=p(1‑p)    (Ⅰ)

式(Ⅰ)中,Var(x)代表特征x的方差值;

b、根据RReliefF算法中不同的权重W来确定候选特征子集;

设置权重阈值W,根据以下规则计算权重:

从所有样本中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:式(II)中,W[A]是指特征A的权重,PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(Ⅴ)所示,NSs是指最近样本,并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(Ⅴ)所示:PdiffA=P(diffA|NSs)    (Ⅲ)

PdiffC=P(diffC|NSs)    (Ⅳ)

PdiffC|diffA=P(diffC|DNSs)    (Ⅴ)求取得到所有特征的权重。

5.根据权利要求4所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,p=0.8。

6.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.2)中,通过基尼系数作为随机森林算法的评价指标,来表示候选特征子集中每个候选特征的特征重要性,基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量,具体实现步骤包括:求取候选特征子集中每个候选特征的基尼系数,基尼系数求取公式如式(Ⅵ)所示:式(Ⅵ)中,IG是指基尼系数,f是指某一特征,fi是指第i个特征,m是指特征总数;

随机森林算法根据基尼系数求解出每个特征的特征重要性,根据重要性排序选择出满足该随机森林算法的特征,得到所需要的特征子集。

7.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,第二阶段的具体实现步骤是指:将特征子集导入新型网络变分自编码器中,进行去噪并获得特征子集低维表示即特征子集最佳表示。

8.根据权利要求7所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层,所述隐含层的节点数为256,epoch为50次,batch size为25。

9.根据权利要求8所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述隐含层的激活函数为relu函数,所述输出层的激活函数为sigmoid函数,使用Adam作为优化器。

10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1‑9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。

11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。