1.基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,包括以下步骤:
(1)人类环状RNA-疾病关系提取
将环状RNA-疾病关系转换成一个无向图,相互作用关系的邻接矩阵A,邻接矩阵中的A(i,j)表示为一个环状RNA-疾病关系对实体,如果在环状RAN i和疾病j之间存在相互作用关系,则A(i,j)=1,反之A(i,j)=0;
(2)环状RNA序列相似性提取及计算
通过python包集成的Needleman-Wunsch方法,计算每一对环状RNA之间的序列相似性分数,构建环状RNA的碱基序列相似性矩阵Seq_CS;
(3)环状RNA功能注释语义相似性
在人类蛋白质参考数据库中下载环状RNA靶点作用基因的本体注释数据,根据基因筛选出其对应的本体数据,将环状RNA靶点作用基因和处理完的带有本体数据的基因进行匹配,再通过一种基于信息内容的方法来计算环状RNA功能注释语义相似性得分,构建环状RNA功能注释语义相似性矩阵Fun_CS,Fun_CS矩阵中的Fun_CS(n,m)为环状RNAn和环状RNAm之间的功能注释语义相似性得分;
(4)环状RNA表达谱相似性
在exoRBase数据库中下载环状RNA在人类组织中32个不同位点的基因表达量数据,环状RNA的基因表达谱数据被表示为一个维度为32的向量,再通过皮尔森相关系数计算两个环状RNA之间的相关性,从而构建环状RNA表达谱相似性矩阵ES;
(5)多种环状RNA相似性融合
通过多网络融合算法,将在步骤(2)、(3)、(4)中获取的环状RNA碱基序列相似性矩阵Seq_CS、功能语义相似性矩阵Fun_CS以及表达谱相似性矩阵ES合并成一个综合环状RNA相似性网络,在将环状RNA序列相似,功能注释相似性以及表达谱相似性网络融合之前,对这三个相似性网络进行归一化处理;
(6)计算疾病功能相似性
在DisGeNet数据库中下载疾病相关的基因数据,在人类在线孟德尔遗传数据库中下载疾病表型相关基因数据,以此计算疾病功能相似性;
(7)计算疾病语义相似性
将筛选出来的疾病在DiseaseOntology数据库中对应成相应的DOID,再通过一个R语言的集成包计算疾病语义相似性DSS,再将疾病功能相似性和语义相似性融合;
(8)构建环状RNA-疾病特征向量
在构建完环状RNA疾病关系邻接矩阵,融合多数据的环状RNA相似性矩阵以及疾病相似性矩阵,提取环状RNA-疾病关系对的以下四种不同的特征,分别包括多数据网络融合的环状RNA和疾病相似网络统计学特征、将环状RNA和疾病相似性网络转换成邻接矩阵之后的图特征、环状RNA核酸序列数据生物含义特征、疾病相似网络和环状RNA疾病关联矩阵中的隐式向量特征,将四种特征压缩成每对环状RNA-疾病特征向量;
(9)训练梯度增强决策树回归模型
通过步骤(8)构建每对环状RNA-疾病相互作用的特征向量,在负样本中随机抽取与正样本数量相同的负样本,负样本指未知环状RNA-疾病关系的样本,正样本指已知环状RNA-疾病关系的样本,将这些正负样本输入到梯度增强决策树学习机中来训练,最后将未确定的环状RNA-疾病关系特征向量输入到训练好的模型中预测环状RNA-疾病存在关系的可能性。
2.根据权利要求1所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(5)中按式(1)来将每个环状RNA相似性网络对应的矩阵归一化:式中P(i,j)表示的是归一化之后的相似性网络对应的矩阵,W(i,j)表示的是原始的相似性网络对应的矩阵,M代表原始相似性网络对应的矩阵的个数,按式(2)计算归一化后的相似性网络对应的矩阵的局部相似性:式中S(i,j)代表的是局部相似性网络对应的矩阵,WM代表的是第M个环状RNA相似网络,WM(i,j)代表是第M个环状RNA相似网络中的环状RNAi和j的相似性得分,V(i)代表的是环状RNAi前20个相似的环状RNA集合,k代表的是集合V(i)中的一个环状RNA,WM(i,k)第M个环状RNA相似网络中的环状RNAi和k的相似性得分,然后按式(3)来计算全局相似性:式中 代表的是经过t次迭代之后产生的相似性矩阵的全局相似性,S(i)代表的是第i个环状RNA局部相似性网络,M代表的是环状RNA相似性网络的数量,(S(i))T代表的的S(i)的转置, 代表的是除了第i个环状RNA相似性网络其他环状RNA相似性网络,然后按式(4)将整合了局部和全局的相似进行融合;
式中P代表将M个环状RNA相似性网络整合之后的环状RNA相似性网络。
3.根据权利要求2所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(6)中按式(5)计算疾病功能相似性:式中 和 分别代表两个疾病相关的基因集合。
4.根据权利要求3所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(7)中按式(6)将疾病功能相似性和语义相似性融合:DS(i,j)=α·DFS(i,j)+(1-α)·DSS(i,j) 式(6)
式中α代表疾病功能相似性和语义相似性融合权重因子,DS(i,j)代表的是整合后的疾病相似性网络,DFS(i,j)代表的是一对疾病的功能相似性得分,DSS(i,j)代表的是一对疾病的语义相似性得分。
5.根据权利要求4所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(8)中环状RNA-疾病特征向量的构建方法具体为:为了提取环状RNA-疾病关系中的融合了多种环状RNA相似性网络P、疾病相似性整合矩阵DS和环状RNA-疾病相互作用关系网络A中的统计学信息特征,首先通过计算环状RNA-疾病相互作用关系矩阵A中第i列或第j行的和来计算环状RNAi和疾病j的邻居个数F1.num.nei,根据环状RNA相似性矩阵P和疾病相似性矩阵DS计算环状RNAi和疾病j的平均相似度F1.sim.ave,此外,环状RNAi和疾病j相似性的分布特征,即F1.dis.num,将相似度得分根据分布划分为5个区间,统计每个区间的相似性分的数量;
为了提取环状RNA和疾病的从图的角度来提取融合了多种环状RNA相似矩阵P和疾病相似性整合矩阵DS的特征,首先将多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS各自求和计算出对应的平均相似性,环状RNA相似矩阵P和疾病相似矩阵DS转换为无权重图,对于重新构建的无权图得到环状RNAi和疾病j的邻居数,表示为F2.num.nei,根据多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS,计算环状RNAi和疾病j的相似度得分排在前十的邻居,表示为F2.k.sim,对于提取出环状RNA相似性网络和疾病相似性网络的统计学特征,通过相似性排在前10个环状RNA和疾病的邻居节点来计算第一类特征的平均值,即F2.ave.feat1,并且通过环状RNA和疾病对应的相似性值加权,表示为F2.w.ave.feat1,为了得到更多的环状RNA和疾病的无权重图的信息,计算多网络融合环状RNA相似性矩阵P和疾病相似性矩阵DS中每个节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F2.bc、F2.cc和F2.ec;
为了提取环状RNA的碱基核苷酸序列中的特性来计算其生物学特征,核酸序列中GC碱基的含量作为生物学特性的一个重要指标,表示为F3.gc.cont,碱基序列的k-mer特征也被用来计算环状RNA的生物特征,表示为F3.base.k-mer;
为了提取环状RNA-疾病关联矩阵A中的隐式向量特征,采用奇异值分解算法分解环状RNA-疾病的隐式向量,表示为F4.svd,此外,从环状RNA-疾病关联矩阵A中获取一对环状RNA和疾病的相关疾病和环状RNA数量,用F4.c.d.num和F4.d.c.num来分别表示一对环状RNA和疾病的相关疾病和环状RNA的数量,进而计算环状RNA-疾病关系矩阵中每个环状RNA和疾病节点的中间中心性、紧密中心性和特征向量中心性,分别表示为F4.c.d.bc、F4.c.d.cc和F4.c.d.ec;
在提取了多网络融合的环状RNA相似网络P的统计学特征F1、将多网络融合的环状RNA相似网络P和疾病相似网络DS转换成对应的无权重图的图特征F2、环状RNA的碱基序列的生物特征F3以及环状RNA-疾病关联网络A的隐式向量特征F4所有信息后,构建每对环状RNA-疾病的特征向量,将四类特征合并为每个环状RNA-疾病关联关系的特征向量,按式(7)所示:F(c(i),d(j))=[F1,F2,F3,F4] 式(7)
式中F(c(i),d(j))代表的是环状RNAi和疾病j关系对特征向量。
6.根据权利要求1所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(3)中,环状RNA之间的功能注释语义相似性得分,由式(8)得到:式中,Ci和Cj分别代表环状RNA i和j靶点基因相关的本体数据集合,P(Ci)和P(Cj)分别代表环状RNAi和j靶点基因相关的本体数据集合数量和使用的本体数据数量的比值,P(Ci∪j)表示的是环状RNAi和j共有的靶点基因相关的本体数据的数量与使用中的本体数据数量之间的比例。
7.根据权利要求6所述的基于梯度增强决策树预测环状RNA与疾病相关性的方法,其特征在于,步骤(4)中,环状RNA之间的表达谱相似性得分,由式(9)得到:式中,N是环状RNA表达位点的数量,Cit代表的是第i个环状RNA在t位点的表达量值,代表的是第i个环状RNA的平均表达量,Cjt代表的是第j个环状RNA在t位点的表达量值,代表的是第j个环状RNA的平均表达量。