1.一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,包括以下步骤:S1、获取药物的结构信息、靶标的序列信息和已知的药物‑靶标关系;
S2、采用PU学习来筛选潜在的药物‑靶标负相关关系;
S21、构建药物‑靶标正相关关系矩阵Y1,药物‑靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,…,m;j=1,2,…,n;m和n分别为已知的药物和靶标的个数;
S22、定义{pk,k=1,2,...,|P|}为所有的已知药物‑靶标正相关关系的特征向量集合,{uz,z=1,2,...,|U|}为所有的未知药物‑靶标关系的特征向量集合,|P|为已知的药物‑靶标正相关关系的数量,|U|为未知药物‑靶标关系的数量;其中若已知药物di和靶标tj存在关系,则药物相似性矩阵 与靶标相似性矩阵 连结之后的特征向量为特征向量pk,维度为W,即n+m;若已知药物di和靶标tj未知关系,则药物相似性矩阵 与靶标相似性矩阵连结之后的特征向量为特征向量uz,维度为W,即n+m;其中药物相似性矩阵 表示药物结构相似性矩阵Simd的第i行,靶标相似性矩阵 表示靶标相似性矩阵Simt的第j列;
S23、根据所有的已知药物‑靶标关系的特征向量集合{pk,k=1,2,...,|P|},计算正样本标准化向量p,计算公式如下:p=p+pk,k=1,2,...,|P|
对正样本向量p进行标准化,公式为:
p=p/|P|
其中|P|为已知的药物‑靶标正相关关系的数量;
S24、根据正样本标准化向量p,计算所有的未知药物‑靶标关系的特征向量与正样本标准化向量p的平均距离并标准化,计算公式如下:对平均距离进行标准化,公式为:
distave=dist/|U|
其中|U|为未知的药物‑靶标关系的数量;W为药物相似性矩阵 与靶标相似性矩阵连结之后的特征向量的维度;
S25、根据标准化平均距离distave,计算所有的未知药物‑靶标关系的特征向量{uz,z=
1,2,...,|U|}与正样本标准化向量p的欧式距离,计算公式如下:其中|U|为未知的药物‑靶标关系的数量;W为药物相似性矩阵 与靶标相似性矩阵连结之后的特征向量的维度;
若某个未知药物‑靶标关系的特征向量uz与标准化平均距离p的欧式距离distz大于标准化平均距离distave,则将这个未知药物‑靶标关系的特征向量uz合并到可靠的负样本集RN中;对可靠的负样本集RN从大到小进行排序,从可靠的负样本集RN中选择负样本与正样本的比例为n:1的数量作为潜在的药物‑靶标负相关关系,构成筛选的潜在药物‑靶标负相关关系的特征向量集合{rnk,k=1,2,…,n*|P|};
S26、基于构建的药物‑靶标正相关关系矩阵Y1,根据筛选的潜在的药物‑靶标负相关关系构建药物‑靶标关系矩阵Y2,每一行对应一个药物,每一列对应一个靶标;若药物di和靶标tj为筛选的潜在的负相关关系,则Y2(i,j)等于‑1;否则,Y2(i,j)等于0;其中i=1,2,...,m;
j=1,2,...,n;m和n分别为已知的药物和靶标的个数;
S3、采用深度森林方法来预测潜在的药物‑靶标关系;
S31、结合所有的已知药物‑靶标正相关关系的特征向量集合{pk,k=1,2,...,|P|}和筛选的潜在的药物‑靶标负相关关系的特征向量集合{rnk,k=1,2,...,n*|P|},构建药物‑靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|};
S32、使用三个不同大小的滑动窗口机制对药物‑靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|}进行处理,得到三个不同大小类型的子特征向量,并将三个不同大小类型的子特征向量分别用于训练随机森林和完全随机森林,得到三个不同大小类型的类概率向量;其中,滑动窗口的三个不同大小分别是 步长为l;
S33、基于步骤S32产生的三个不同大小类型的类概率向量,使用级联森林结构对类概率向量进行分类;其中,每一层级联层中都包括三层结构,且每个结构都是由n3个随机森林和n4个完全随机森林构成;在级联森林结构中,为了降低过拟合的风险,每个森林生成的类向量是通过g折交叉验证产生的;即每个样本都会被当作训练数据训练g‑1次,生成g‑1个类c维向量,然后对其取平均值即为这个森林最终特征向量,将这n3+n4个森林的c维特征向量连在一起,作为下一层的增强特征向量;在扩展一个新的层后,整个级联森林的性能将在验证集上进行评估,如果没有显着的性能提升,训练过程将终止;因此,级联森林中层的数量是自动确定的;最后,产生n3+n4个c维的类向量di,i=1,2,...(n3+n4);
S34、基于步骤S33产生的n3+n4个c维的类向量di,i=1,2,...(n3+n4),计算最终的分类类别,计算公式如下:
2.根据权利要求1所述的一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,在步骤S1中构建药物‑靶标正相关关系矩阵Y1,药物‑靶标矩阵每一行对应一个药物,每一列对应一个靶标;若已知药物di和靶标tj存在关系,则Y1(i,j)等于1;否则,Y1(i,j)等于0;其中i=1,2,...,m;j=1,2,...,n;m和n分别为已知的药物和靶标的个数。
3.根据权利要求1所述的一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,在步骤S1中的构建药物相似性矩阵的方法为:
1)基于药物的结构信息,使用一种基于图的方法SIMCOMP,其中药物的结构信息被视为由原子作为顶点以及共价键作为边的2D结构图;
2)根据药物的结构信息,计算药物drugi和药物drugj的结构相似性Simd,计算公式如下:其中,di和dj分别表示药物drugi和药物drugj的结构信息,
最后, 为第i行第j列的元素值;由所有的 构成药物相似性矩阵Simd。
4.根据权利要求1所述的一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,在步骤S1中构建靶标相似性矩阵的方法为:基于靶标的氨基酸序列信息,使用一种基于局部序列比对的算法史密斯‑沃特曼算法;
根据靶标的氨基酸序列信息,计算靶标proteini与靶标proteinj的序列相似性Simt,计算公式如下所示:其中,pi和pj分别表示靶标proteini与靶标proteinj的序列信息;
最后, 为第i行第j列的元素值;由所有的 构成靶标相似性矩阵Simt。
5.根据权利要求1所述的一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,在步骤S21中,具体过程为:b1)使用步长为l、大小为si,i=1,2,3的滑动窗口去扫描药物‑靶标关系的正负相关关系的特征向量集合{Ik,k=1,2,...,(n+1)*|P|},特征向量的维度为W,每个特征向量将会得到 个子特征向量,每个子特征向量的维度是si,i=1,2,3;
其中,窗口大小s1、s2、s3分别为
b2)基于步骤b1)产生的 个子特征向量,它们被用来训练随机森林和
完全随机森林,得到类概率向量,计算公式如下:
其中,e是类别标签的数量;n1和n2分别是随机森林和完全随机森林的数量。
6.根据权利要求1所述的一种基于深度森林和PU学习的药物‑靶标关系预测方法,其特征在于,在步骤S33中,具体过程为:c1)在级联森林结构中,由前一层的输入数据和输出结果进行连结操作并作为下一层的输入;首先,将类概率向量d1用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c2)在第一层a中,基于步骤c1)产生的c*(n3+n4)维的类向量,与类概率向量d1连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c3)在第一层b中,基于步骤c2)产生的c*(n3+n4)维的类向量,与类概率向量d2连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c4)在第一层c中,基于步骤c3)产生的c*(n3+n4)维的类向量,与类概率向量d3连结,用于训练两个随机森林和两个完全随机森林,产生c*(n3+n4)维的类向量;
c5)在以后的级联层结构中,以此类推。