1.一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,包括步骤如下:A、训练癌症基因分类模型
(1)获取训练数据
第一阶段:集成三种特征选择算法进行全面特征选择,得到特征子集;
第二阶段:使用非监督神经网络获得特征子集最佳表示;
(2)将特征子集最佳表示分为训练集和测试集,输入癌症基因分类模型中进行训练;
B、癌症基因分类
将待检测癌症基因数据预处理后输入训练好的癌症基因分类模型,实现癌症基因分类,判断是否为癌症基因;
基于boosting集成特征选择方法,集成三种特征选择算法,实现全面特征选择,三种特征选择算法包括方差分析、RReliefF算法和随机森林算法;全面特征选择的实现过程如下:(1.1)通过方差分析及RReliefF算法对原始数据进行特征选择,得到候选特征子集;
(1.2)使用随机森林算法根据特征重要性对候选特征子集进行排序,选择出所需要的特征子集。
2.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,原始数据是指癌症微阵列数据。
3.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤B中,检测癌症基因数据进行预处理的过程为:去掉待检测癌症基因数据中的空值及非数值型数据后,通过所述第一阶段及第二阶段的处理得到特征子集最佳表示,将特征子集输入训练好的癌症基因分类模型。
4.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.1)的具体实现步骤包括:a、设置方差分析中参数p,p是指设置的特征方差阈值,通过方差计算公式(Ⅰ)进行一轮特征选择,求出每一个特征的特征方差,选择出特征方差高于p的特征;
Var(x)=p(1‑p) (Ⅰ)
式(Ⅰ)中,Var(x)代表特征x的方差值;
b、根据RReliefF算法中不同的权重W来确定候选特征子集;
设置权重阈值W,根据以下规则计算权重:
从所有样本中随机选出一个样本R,通过对特征之间距离计算,分别寻找样本R同类与异类中的最近样本,得到特征权重,RReliefF算法通过样概率定义模拟样本之间的绝对距离,特征权重计算公式如式(II)所示:式(II)中,W[A]是指特征A的权重,PdiffA是指特征A在所有样本中对应概率值,如式(Ⅲ)所示,PdiffC表示对特征A在所有样本中对应的预测概率值,如式(Ⅳ)所示,PdiffC|diffA表示在已知特征A在样本中具体概率时,预测结果为diffC的概率值,如式(Ⅴ)所示,NSs是指最近样本,并且DNSs代表diffC和它的NSs,PdiffC|diffA、PdiffA、PdiffC的定义如式(Ⅲ)、(Ⅳ)、(Ⅴ)所示:PdiffA=P(diffA|NSs) (Ⅲ)
PdiffC=P(diffC|NSs) (Ⅳ)
PdiffC|diffA=P(diffC|DNSs) (Ⅴ)求取得到所有特征的权重。
5.根据权利要求4所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,p=0.8。
6.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,步骤(1.2)中,通过基尼系数作为随机森林算法的评价指标,来表示候选特征子集中每个候选特征的特征重要性,基尼系数某指某一特征在RF所有决策树中节点分裂不纯度的平均改变量,具体实现步骤包括:求取候选特征子集中每个候选特征的基尼系数,基尼系数求取公式如式(Ⅵ)所示:式(Ⅵ)中,IG是指基尼系数,f是指某一特征,fi是指第i个特征,m是指特征总数;
随机森林算法根据基尼系数求解出每个特征的特征重要性,根据重要性排序选择出满足该随机森林算法的特征,得到所需要的特征子集。
7.根据权利要求1所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,第二阶段的具体实现步骤是指:将特征子集导入新型网络变分自编码器中,进行去噪并获得特征子集低维表示即特征子集最佳表示。
8.根据权利要求7所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述新型网络变分自编码器包括输入层、第一全连接层、隐含层、第二全连接层及输出层,所述隐含层的节点数为256,epoch为50次,batch size为25。
9.根据权利要求8所述的一种基于两阶段深度特征选择的癌症基因分类方法,其特征在于,所述隐含层的激活函数为relu函数,所述输出层的激活函数为sigmoid函数,使用Adam作为优化器。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1‑9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1‑9任一所述基于两阶段深度特征选择的癌症基因分类方法的步骤。