1.一种基于GSA识别基因通路的方法,其特征在于,所述方法包括:
a、获取样本,并确定所述样本的信号通路以及每一个信号通路所含基因,且进一步按照每一个基因与表型间相关性对所有信号通路中所含基因进行排序;
b、确定每一个信号通路中所含基因总数量,并根据所述排序后的基因,确定每一个基因在其对应信号通路中的正得分平均值和负得分平均值,且进一步根据所述确定的每一个信号通路中所含基因总数量以及每一个基因在其对应信号通路中的正得分平均值和负得分平均值,计算出每一个信号通路的通路分数;
c、获取每一个基因的基因出度,并统计出最大基因出度和最小基因出度,且进一步根据所述获取到的每一个基因的基因出度以及所统计出的最大基因出度和最小基因出度,计算出每一个基因的基因出度权重;其中,所述基因出度为基因在所述确定的信号通路中调控下游基因的数量;
d、筛选出同一信号通路中所含基因对应的基因出度权重,并根据所筛选出的同一信号通路中所含基因对应的基因出度权重,对相应计算出的信号通路的通路分数进行修订,且进一步将所述修订后的每一个信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。
2.如权利要求1所述的方法,其特征在于,所述步骤b中的“每一个信号通路的通路分数”均通过公式 来实现;其中,ES0(S)为排序后基因gj所在信号通路S的通路分数;M为排序后基因gj所在信号通路S中所含基因总数量; 为信号通路S中排序后基因gj的正得分平均值, 为信号通路S中排序后基因gj的负得分平均值。
3.如权利要求2所述的方法,其特征在于,所述步骤c具体包括:
获取每一个基因的基因出度,并统计出最大基因出度max(d)和最小基因出度min(d);
根据公式 得到每一个基因的基因出度权重;其中,d(gj)
为排序后基因gj的基因出度;wd(gj)为排序后基因gj的基因出度权重。
4.如权利要求3所述的方法,其特征在于,所述每一个基因的基因出度权重的取值范围为[1,2]。
5.如权利要求1所述的方法,其特征在于,所述步骤d具体包括:
筛选出同一信号通路中所含基因对应的基因出度权重,并将所述筛选出的同一信号通路中所含基因对应的基因出度权重全部进行相乘,所得到的乘积分别作为每一个信号通路的修正系数;
将所述得到的每一个信号通路的修正系数与其对应的信号通路的通路分数相乘,得到的乘积作为修订后的每一信号通路的通路分数,并将所述修订后的每一信号通路的通路分数进行排序,确定排序后最大通路分数所对应的信号通路出现变化的概率最大。