利索能及
我要发布
收藏
专利号: 2017110116440
申请人: 桂林电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:

1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):i T

X=(Pi,1,Pi,2,...,Pi,16)  (1)i

X表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;

2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:i T

X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22)  (3)Ri,17,…,Ri,22分别表示6种二核苷酸的空间排列特征;

3)添加生物特性:将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:

i T

X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23)  (4),ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;

4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:

i T

X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24)   (5),Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;

5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:

i T

X=(Pi,l,Pi,2,…,Pi,16,Ri,17,…,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)  (6)Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;

6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的(147*27)的矩阵如公式(7):Pi,1 Pi,2…Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;

7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度;

8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。