6
1.一种融合基因组特征的mA甲基化局部功能谱分解方法,其包括以下步骤:步骤(1):基于国家生物信息中心的序列阅读档案数据库获取原始测序样本,每组样本6
均包括对应的输入控制数据及免疫沉淀数据,提取上述两组数据中mA位点的读段数;
6
步骤(2):构建各组样本的mA位点甲基化水平矩阵PN×M={pij}和表达水平矩阵WN×M={wij},1≤i≤N,1≤j≤M,对W做最大最小归一化使其取值范围为[0,1],其中,N为样本数目,6 6
M为m A位点数目,pij和wij分别对应于第j个m A位点在第i个样本中的甲基化水平和表达水平;
6
步骤(3):基于mA位点的基因组特征,利用斯皮尔曼秩相关系数构建相关系数绝对值大6
于0.8的极强相关mA位点之间的相关性矩阵,表示为GM×M={gbd},1≤b,d≤M;
6
步骤(4):构建融合基因组特征的mA甲基化局部功能谱模型,如式(1)所示;
其中AN×N={aef}表示待求解的混淆矩阵,aef对应于矩阵A中第e行第f列下的元素取值;
6
SN×M={sop}表示调控通路中m A位点的作用矩阵,其中sop对应于矩阵S中第o行第p列下的元素取值,式(1)中矩阵S’由S和G加权求和得到;α用于调节相关性矩阵的融合权重,其取值范围为0≤α≤1;
‑1
步骤(5):引入辅助矩阵X'=(P*W)·[αI+(1‑α)G] ,其中I表示单位矩阵,利用主成分分析对X'白化处理,如式(2)所示:其中V表示白化矩阵,Z为经白化处理后的待分析矩阵,D是由辅助矩阵X'中各行间的方差矩阵的特征值构成的对角矩阵,E是相应的特征向量的正交矩阵;
步骤(6):经过白化处理后,方法转化为求解Z=VAS中的矩阵A及矩阵S,令Y=WZ,其中W‑1 ‑1=A V ,采用基于负熵的估计方法,对Y中的独立成分逐一求解;假设当前求解的是yh,对应于Y中的第h行,本方法中采用的负熵近似表达式如(3)所示;
2
J(yh)=[E{G(yh)}‑E{G(v)}] (3)其中,E{}表示计算数学期望值,v是与yh具有相同方差的高斯变量,非二次函数G如式(4)所示:其中,log cosh为双曲余弦函数的对数,a为常数且1≤a≤2;求解yh的具体步骤如下:第一步,假设当前求解的是对应第l个独立成分中的第k个解混元素wlk,1≤l,k≤N;求式(3)的梯度,可得负熵近似表达的梯度算法如式(5)所示:其中,r=E{G(yh)}‑E{G(v)},Wl·是矩阵W中的第l个解混向量,Zk·是矩阵Z中的第k个行向量,wlk的更新如式(6)所示;
其中, 为wlk更新后的值;
第二步,同理可更新Wl·中的其他(N‑1)个解混元素,重复第一步及第二步,直至Wl·收敛,Wl·的收敛条件如式(7)所示;
其中,ε是人为预设的一个很小的正数, 是当前轮更新后的第l个解混向量;
步骤(7):对解混向量W(l+1)·正交化处理,以提取矩阵Y中第l+1行,即yl+1,如式(8)所示:其中 是由已经估计出的l个解混向量W1·,W2·,...,Wl·构成的矩阵,它的列依次对应这l个向量;
步骤(8):重复步骤(6)完成独立成分矩阵Y中所有独立成分的提取,利用柯尔莫可洛夫‑斯米洛夫检验对各独立成分进行正态性检验;
6
步骤(9):Y=WZ,估计Y中各独立成分对应的概率密度,提取95%置信区间以外的mA甲6
基化位点集合作为敏感位点,因而每个独立成分可提取出两个mA甲基化局部功能模块。
6
2.根据权利要求1所述的融合基因组特征的mA甲基化局部功能谱分解方法得到的独立成分矩阵Y。