1.基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,包括以下步骤:(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系网络转换成一个无向图,环状RNA-疾病之间的关系的邻接矩阵A,A(i,j)表示环状RNA-疾病关系邻接矩阵A中的一对环状RNA-疾病关系实体,如果环状RNA C(i)和与疾病D(j)存在关系,则A(i,j)=1,否则A(i,j)=0;
(2)构建环状RNA功能注释语义相似性网络
由环状RNA的靶点基因相关基因本体数据构建环状RNA功能注释语义相似性网络,根据从人类蛋白质参考数据库下载基因对应的本体数据,再将环状RNA的靶点基因和从人类蛋白质参考数据库中处理好的基因及其对应的本体数据进行匹配,通过一种基于信息增益的方法来计算两个环状RNA之间的功能注释相似性,从而构建环状RNA功能注释语义相似度网络;
(3)构建环状RNA结构相似性网络
通过python的一个工具包BioPython中的Needleman-Wunsch序列比对算法计算每对环状RNA之间的碱基序列相似性得分,为了统一相似性分数的数量级,对环状RNA的结构相似性进行归一化,最终获得环状RNA结构相似性网络;
(4)构建环状RNA功能相似性网络
首先通过计算环状RNA相关的一种疾病gt与一组疾病GT之间的最大相似性得分,其被定义为Smax(gt,GT),然后通过计算得出的某一疾病与全部疾病集合的最大相似性得分,计算两个环状RNA之间的功能相似性,从而构建环状RNA功能相似性网络;
(5)构建疾病语义相似性网络
将筛选出来的疾病在Disease Ontology数据库中进行手动匹配,将疾病名称对应为相关的DOID,其次采用名为DOSE的R包来计算每两种疾病之间的语义相似度得分,在得到每对疾病相似性得分之后进而可以构建疾病语义相似网络DSN1,疾病语义相似网络DSN1中的DSN1(i,j)表示疾病i和j的语义相似性得分;
(6)构建疾病功能相似性网络
在DisGeNet和人类在线孟德尔遗传数据库中下载疾病相关的基因数据,通过统计学算法JACCARD来计算疾病功能相似性,进而构建疾病功能相似网络DSN2,疾病功能相似网络DSN2中的DSN2(i,j)代表疾病i和j的功能相似性分数;
(7)整合环状RNA相似性网络
通过步骤(2)、(3)以及(4)构建的环状RNA功能注释语义相似网络CSN1,结构相似性网络CSN2以及功能相似性网络CSN3,整合环状RNA相似性网络:(8)整合疾病相似性网络
将构建的疾病语义相似性网络DSN1和疾病功能相似性网络DSN2整合成最终的疾病相似性网络DSN;
(9)通过双随机游走算法预测环状RNA-疾病潜在关系
为了给整合后的环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点赋予一个初始的传播概率,将环状RNA相似性网络和疾病相似性网络按照列来进行标准化,NCS(i,j)和NDS(i,j)分别代表的是标准化后的环状RNA i和j之间的相似性得分以及疾病i和j的相似性得分,为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,首先初始化整合后环状RNA相似性网络和疾病相似性网络中的环状RNA和疾病节点的转移概率,再通过分别在整合后的环状RNA相似网络和疾病相似性网络中采用随机游走算法,最后综合在环状RNA相似性网络和疾病相似性网络中的预测结果获取最终的环状RNA-疾病关系预测结果。
2.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(2)中按式(1)计算环状RNA C(i)和C(j)之间的相似性得分:式中CSN1(i,j)表示环状RNA C(i)和C(j)之间的相似性分数,Pro(Ci)和Pro(Cj)分别表示环状RNA C(i)/C(j)靶点基因相关的本体数据的数量与所有与靶点基因相关的本体数据总数量之间的比例,Pro(Ci∪Cj)代表环状RNA Ci和Cj靶点基因共同相关的本体数据数量和所有靶点基因相关的本体数据总数的比例。
3.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(3)中按式(2)对环状RNA的结构相似性进行归一化:式中CSN2代表的是经过归一化处理的环状RNA结构相似性网络,CSN2(i,j)代表的是环状RNA C(i)和C(j)的相似性分数,式中NWs(C(i),C(j))代表环状RNAC(i)和C(j)之间的Needleman-Wunsch序列比对算法得出的相似性得分。
4.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(4)中按式(3)计算一种疾病gt与一组疾病GT之间的最大相似性得分Smax(gt,GT):通过式(3)计算得出的某一疾病与疾病集合的最大相似性得分,按式(4)来计算两个环状RNA之间的功能相似性:式中CSN3代表环状RNA功能相似性网络,其中CSN3(i,j)表示环状RNA Ci和Cj的功能相似性得分,GTi和GTj分别代表的是环状RNA Ci和Cj相关疾病集合,gtil和gtjq分别表示GTi和GTj疾病集合中的某一疾病,n和m分别代表环状RNA Ci和Cj相关疾病的数量。
5.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(6)中按式(5)计算疾病i和j的功能相似性分数:式中DG(i)和DG(j)分别表示疾病i和j相关基因集合。
6.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(7)中按式(6)来整合环状RNA相似性网络:式中CSN表示整合后的环状RNA相似性网络,其中CSN(i,j)代表环状RNAi和j的相似性得分。
7.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(8)中按式(7)来计算DSN(i,j):DSN(i,j)=αDSN1(i,j)+(1-α)DSN2(i,j) 式(7)式中α代表疾病相似性整合调和平均参数,DSN(i,j)代表整合后的疾病i和j的相似性得分。
8.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(9)中NCS(i,j)和NDS(i,j)按式(8)和式(9)计算:为了在整合后的环状RNA相似性网络和疾病相似网络中进行节点概率传播的概率转移,分别按式(10)和式(11)计算环状RNA和疾病的转移概率:CRt=β*NCS*CRt-1+(1-β)A 式(10)
DRt=β*NDS*DRt-1+(1-β)A 式(11)
式中CRt和DRt分别表示每一次迭代后的环状RNA和疾病网络上的随机游走的每对环状RNA-疾病潜在关系得分,β表示在每次随机游走迭代过程中的衰减因子,t是环状RNA和疾病网络上随机游走的迭代次数,在迭代完成后能获得每一对环状RNA-疾病关系的可能性得分。
9.根据权利要求1所述的基于双随机游走重启动的多数据整合环状RNA与疾病相关性预测方法,其特征在于,步骤(9)中的具体迭代方法如下:Step1:初始化环状RNA相似性网络和疾病相似性网络迭代标志lflag=0以及rflag=0;
Step2:判断当前迭代次数小于或等于给定的在环状RNA相似性网络中的迭代次数,则通过式(10)来进行概率传播,并将环状RNA相似性网络的迭代标志lflag设为1;
Step3:判断当前迭代次数小于或等于给定的在疾病相似性网络中的迭代次数,则通过式(11)来进行概率传播,并将疾病相似性网络的迭代标志rflag设为1;
Step4:根据式(12)计算当且迭代中的环状RNA-疾病潜在关系得分:
RW=(lflag*CR+rflag*DR)/(lflag+rflag) 式(12)式中RW表示的是本轮迭代中每对环状RNA-疾病相关性预测得分,CR代表的是随机游走算法在整合后的环状RNA相似性网络中的环状RNA-疾病相关性预测得分,DR代表的是随机游走算法在整合后的疾病相似性网络中的环状RNA-疾病相关性预测得分;
Step5:判断迭代次数是否等于给定的环状RNA相似性网络迭代次数ICSN和疾病相似性网络迭代次数IDSN中的最大的值,若是,迭代完成;否则,回到Step1。