1.一种基于深度卷积神经网络的RNA‑蛋白质结合位点预测方法,包括预处理RNA序列、训练卷积神经网络和测试卷积神经网络三个过程,其具体步骤如下:步骤1、为了从RNA序列中提取更多的结合信息,需要使用不同长度的窗口分别处理RNA序列,因此,需要首先确定不同的窗口长度;
步骤2、使用不同长度的窗口分别处理RNA序列;对于不等长的RNA序列,当窗口长度大于RNA序列时,使用补足碱基N把RNA序列填充到窗口长度;当窗口长度小于RNA序列时,根据窗口长度把RNA序列分割成多个有部分重叠的等长子序列,子序列不足的RNA序列使用全是补足碱基N的子序列填充;
步骤3、把步骤2中使用不同长度的窗口分别处理好的RNA序列数据通过单热编码的方式编码成多个矩阵;
步骤4、把步骤3中生成的多个单热编码矩阵作为卷积神经网络的输入,训练多个卷积神经网络模型;
步骤5、保存训练好的多个卷积神经网络模型;
步骤6、使用步骤5中保存好的模型来预测输入的RNA序列数据。
2.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤1的实现过程如下:
确定处理RNA序列所使用的不同窗口长度:将501个核苷酸的长度作为初始窗口长度MaxL;其余窗口长度分别以MaxL为初始长度递减核苷酸个数为X的整数倍;考虑到模型的预测性能以及模型训练的和测试时间,X的值确定为50,窗口的最小长度MinL为101个核苷酸;
窗口的个数P根据公式 (1) 确定:不同窗口的长度W根据公式 (2) 确定:其中,i是窗口长度编号,最终产生P个不同长度的窗口。
3.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤2的实现过程如下:
使用步骤1中产生的P个不同长度的窗口分别处理RNA序列;根据L1计算卷积神经网络的输入频道数量Q1,根据L2计算卷积神经网络的输入频道数量Q2;例如:当窗口长度大于L1时,根据公式 (3) 计算Q1 = 1,即卷积神经网络的输入频道数量是1,使用补足碱基N把L1填充到窗口长度作为一个频道;此时,窗口长度必定大于L2,根据公式 (3) 计算Q2 = 1,使用补足碱基N把L2填充到窗口长度作为一个频道;当窗口长度小于L1时,把L1根据窗口长度分割成Q1个有部分重叠的等长子序列,根据下面的公式 (3) 计算Q1;L2也根据窗口长度分割成Q2个有部分重叠的等长子序列,根据公式 (3) 计算Q2,如果Q2 < Q1,则使用Q1 ‑ Q2个等于窗口长度的全是补足碱基N的子序列作为填充,此时卷积神经网络的输入频道数量等于Q1;
其中,L是RNA序列长度,W是窗口大小,S是窗口之间的重叠长度,当剩余RNA碱基数量大于10时,从后向前截窗口大小的长度作为一条子序列。
4.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤3的实现过程如下:
把步骤2中根据P个窗口长度处理好的P组RNA序列根据公式 (4) 处理得到P个单热编码矩阵,假设n个核苷酸长度的RNA序列 ,则RNA序列S的单热编码矩阵M表示为:
其中,i是核苷酸的索引,j是单热编码矩阵中对应的A,C,G,U的索引,补足碱基N在单热编码矩阵中使用 [0.25,0.25,0.25,0.25] 表示。
5.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤4的实现过程如下:
卷积神经网络模型使用步骤3中处理好的P个单热编码矩阵作为输入,每个矩阵都训练一个卷积神经网络模型,每个卷积神经网络模型包括两个隐藏层、一个全连接层和一个输出层;两个隐藏层参数的设置除了卷积核大小不同,其余参数都相同;两个隐藏层的卷积核大小分别是 (4,10)、(1,10),都进行归一化操作和使用ReLU激活函数,池化层大小都是 (1,3),第二个隐藏层的输出以0.25的概率进行Dropout操作;全连接层有200个节点,使用ReLU激活函数,并且全连接层的输出以0.25的概率进行Dropout操作;输出层有2个节点,使用Sigmoid激活函数。
6.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤5的实现过程如下:
保存步骤4中训练好的P个卷积神经网络模型,用于预测输入的RNA序列数据。
7.根据权利要求1所述的一种基于卷积神经网络的RNA‑蛋白质结合位点预测方法,步骤6的实现过程如下:
把输入的RNA数据重复步骤1‑3得到P个单热编码矩阵,把单热编码矩阵输入到步骤5保存的P个模型中,每个模型得到一个预测结果,输入的RNA序列的最终预测结果取P个模型预测结果的平均值。