1.一种基于PADOG识别基因通路的方法,其特征在于,所述方法包括:a、获取样本,并确定所述样本的信号通路以及每一个信号通路所含基因,且按照每一个基因与表型间相关性对所有信号通路中所含基因进行排序,进一步根据所述排序后的基因,确定每一个基因的基因频度及基因出度;其中,所述基因频度为基因在所述确定的信号通路中出现的总次数,所述基因出度为基因在所述确定的信号通路中调控下游基因的数量;
b、根据所述确定的每一个基因的基因频度,统计出最大基因频度和最小基因频度,并根据所述统计出的最大基因频度和最小基因频度,确定每一个基因的基因频度权重;
c、确定每一个信号通路所含基因总数量和排序后每一个基因的矫正分数,并根据所述确定的每一个信号通路所含基因总数量和排序后的每一个基因的矫正分数及其对应的基因频度权重,计算出每一个信号通路的通路分数;
d、根据所述确定的每一个基因的基因出度,统计出最大基因出度和最小基因出度,并根据所述获取到的每一个基因的基因出度以及所统计出的最大基因出度和最小基因出度,计算出每一个基因的基因出度权重;
e、筛选出同一信号通路中所含基因对应的基因出度权重,并根据所筛选出的同一信号通路中所含基因对应的基因出度权重,对相应计算出的信号通路的通路分数进行修订,且进一步将所述修订后的每一个信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。
2.如权利要求1所述的方法,其特征在于,所述步骤b具体包括:
获取每一个基因的基因频度,统计出最大基因频度max(f)和最小基因频度min(f);
根据公式 得到每一个基因的基因频度权重;其中,f(gj)
为排序后基因gj的基因频度;wf(gj)为排序后基因gj的基因频度权重。
3.如权利要求2所述的方法,其特征在于,所述步骤c中的“每一个信号通路的通路分数”均通过公式 来实现;其中,ES0(S)为排序后基因gj所在信号通路S的通路分数;M为排序后基因gj所在信号通路S中所含基因总数量;T(gj)为排序后基因gj的矫正分数。
4.如权利要求1所述的方法,其特征在于,所述步骤d具体包括:
获取每一个基因的基因出度,并统计出最大基因出度max(d)和最小基因出度min(d);
根据公式 得到每一个基因的基因出度权重;其中,d(gj)
为排序后基因gj的基因出度;wd(gj)为排序后基因gj的基因出度权重。
5.如权利要求4所述的方法,其特征在于,所述每一个基因的基因出度权重的取值范围为[1,2]。
6.如权利要求1所述的方法,其特征在于,所述步骤e具体包括:
筛选出同一信号通路中所含基因对应的基因出度权重,并将所述筛选出的同一信号通路中所含基因对应的基因出度权重全部进行相乘,所得到的乘积分别作为每一个信号通路的修正系数;
将所述得到的每一个信号通路的修正系数与其对应的信号通路的通路分数相乘,得到的乘积作为修订后的每一信号通路的通路分数,并将所述修订后的每一信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。