利索能及
我要发布
收藏
专利号: 2022105249689
申请人: 华东交通大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合多组学数据的网络标志物识别方法,包括以下步骤:步骤一、基于氨基酸的序列同源性和物理性质,评估全基因组测序文件中的样本i中基因j上的SNP对蛋白质功能的影响,得到基因突变数据集:其中,sij表示影响程度得分(基因突变得分),n表示基因个数,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示CN、MCI和AD阶段的样本数量;

步骤二、将蛋白质相互作用网络(PPIN)数据中的蛋白质名称转换为对应的基因名称,形成蛋白质相互作用网络数据集:其中,Wn*n为蛋白质相互作用网络的邻接矩阵的表示形式,wij表示蛋白质i和蛋白质j之间的相互作用得分,n表示基因的个数;

步骤三、将所述基因突变数据映射到所述蛋白质相互作用网络上应用网络传播算法以平滑每个基因的影响程度得分,得到平滑后的基因突变数据集;

步骤四、对基因表达数据集、所述平滑后的基因突变数据集、所述蛋白质相互作用网络数据集的基因取交集,得到用于分析的数据集;所述基因表达数据集表示为:其中,pij表示样本i中基因j的表达量值,n表示基因个数,yk表示第k个样本的标签,k=c+m+a,c、m和a分别表示CN、MCI和AD阶段的样本数量;

步骤五、将所述用于分析的数据集中基因表达数据以及平滑后的基因突变数据映射到蛋白质相互作用网络上;定义疾病阶段a与健康的对照组b中基因A与基因B之间的差异表达调控如下:P(AB)=|ρa(AB)‑ρb(AB)|                           (3)其中ρ为两个变量的皮尔森相关系数,定义如下:

当P(AB)大于等于第一阈值时,认为基因A与基因B在疾病阶段和对照组中的表达调控方式发生了显著变化,输出调控方式发生显著变化的基因对;

步骤六、对患病组与疾病组进行差异基因分析,使用t检验方法计算两个基因表达的统计量tg,进而得到p值,定义p值小于第二阈值的基因为差异基因,输出所述差异基因。

2.根据权利要求1所述的方法,其特征在于,所述步骤一中sij的值为0、1或2,当sij=2时表示样本i中基因j上的SNP对该基因编码的蛋白质影响程度高,当sij=1时表示影响程度中等,当sij=0时表示其他情况。

3.根据权利要求1所述的方法,其特征在于,所述步骤二中wij的值为0或1,当wij=1时表示蛋白质i和蛋白质j之间具有相互作用,当wij=0时表示没有相互作用。

4.根据权利要求1所述的方法,其特征在于,所述步骤三中网络传播算法是一种在网络上模拟随机游走的算法,其公式定义如下:Ft+1=αFtA′+(1‑α)F0                           (1)‑1

A′=D A                                   (2)其中,F0是患者的原始基因突变矩阵,A是蛋白质互作网络的邻接矩阵,D是对角矩阵,D(i,i)为矩阵A第i行行和,α是控制变异信号在网络传播过程中扩散的距离的调节参数;传播函数Ft以t=[0,1,2,…]迭代运行,直到Ft+1收敛。

5.根据权利要求1所述的方法,其特征在于,所述步骤五中第一阈值为0.70。

6.根据权利要求1所述的方法,其特征在于,所述步骤六中t检验方法包括:假设患病组与疾病组的基因突变得分 和 是相等的,则零假设为:对应的备选假设为:

t检验的计算公式是:

其中,

其中,ni是组i(即患病组或对照组)中的样本数,xgij表示为基因g在组i中第j个样本的基因突变的得分值;通过计算tg的值,进而通过查表得到p值。

7.根据权利要求1所述的方法,其特征在于,所述步骤六中第二阈值为0.0005。