1.一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:
1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):i T
X=(Pi,1,Pi,2,...,Pi,16) (1)i
X表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:i T
X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22) (3)Ri,17,…,Ri,22分别表示6种二核苷酸的空间排列特征;
3)添加生物特性:将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
i T
X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23) (4),ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:
i T
X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24) (5),Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
i T
X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27) (6)Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的(147*27)的矩阵如公式(7):Pi,1 Pi,2…Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;
7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度;
8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。