利索能及
我要发布
收藏
专利号: 2020112361082
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种双向三核苷酸位置特异性偏好和点联合互信息DNA/RNA序列编码方法,其特征在于由以下步骤组成:(1)建立DNA/RNA序列核苷酸位置特异性偏好矩阵给定DNA/RNA序列数据集D,该数据集由正类数据集和负类数据集组成;

按下式确定正类数据集的核苷酸位置特异性偏好矩阵

其中,A、C、G、X是DNA/RNA的4种核苷酸,其中,X在DNA中表示核苷酸T,在RNA中表示核苷酸U,i为核苷酸的位置,1≤i≤l,i的取值为有限的正整数,l为DNA/RNA序列样本的核苷酸长度,l的取值为奇数, 分别是正类数据集所有序列样本第i个位置上核苷酸A、C、G、X的出现频率;

按下式确定负类数据集的核苷酸位置特异性偏好矩阵

其中, 分别是负类数据集所有序列样本第i个位置上核苷酸A、C、G、X的出现频率;

(2)建立DNA/RNA序列双向二核苷酸位置特异性偏好矩阵按下式确定正类数据集的前向二核苷酸位置特异性偏好矩阵其中,AA、AC、…、XX为DNA/RNA的4种核苷酸A、C、G、X构成的16种二核苷酸,j为二核苷酸的位置,2≤j≤l-1,j的取值为有限的正整数, 分别是正类数据集所有序列样本第j个位置、第j+1个位置上二核苷酸AA、AC、…、XX的出现频率;

按下式确定正类数据集的后向二核苷酸位置特异性偏好矩阵其中, 分别是正类数据集所有序列样本第j个位置、第j-1个位置上二核苷酸AA、AC、…、XX的出现频率;

按下式确定负类数据集的前向二核苷酸位置特异性偏好矩阵其中, 分别是负类数据集所有序列样本第j个位置、第j+1个位置上二核苷酸AA、AC、…、XX的出现频率;

按下式确定负类数据集的后向二核苷酸位置特异性偏好矩阵其中, 分别是负类数据集所有序列样本第j个位置、第j-1个位置上二核苷酸AA、AC、…、XX的出现频率;

(3)建立DNA/RNA序列双向三核苷酸位置特异性偏好矩阵按下式确定正类数据集的前向三核苷酸位置特异性偏好矩阵其中,AAA、AAC、…、XXX是DNA/RNA的4种核苷酸A、C、G、X构成的64种三核苷酸,β为第k个核苷酸与其前向连续二核苷酸之间的距离,0≤β≤(l-5)/2,β的取值为有限的正整数,k为三核苷酸的位置,β+3≤k≤l-β-2,k的取值为有限的正整数, 分别为正类数据集所有序列样本第k个、第k+β+1个、第k+β+2个位置上三核苷酸AAA、AAC、…、XXX的出现频率;

按下式确定正类数据集的后向三核苷酸位置特异性偏好矩阵其中, 分别为正类数据集所有序列样本第k个、第k-β-1个、第k-β-2个位置上三核苷酸AAA、AAC、…、XXX的出现频率;

按下式确定负类数据集的前向三核苷酸位置特异性偏好矩阵其中, 分别为负类数据集所有序列样本第k个、第k+β+1个、第k+β+2个位置上三核苷酸AAA、AAC、…、XXX的出现频率;

按下式确定负类数据集的后向三核苷酸位置特异性偏好矩阵其中, 分别为负类数据集所有序列样本第k个、第k-β-1个、第k-β-2个位置上三核苷酸AAA、AAC、…、XXX的出现频率;

(4)确定DNA/RNA序列核苷酸的点联合互信息值(4.1)按下式确定待编码DNA/RNA序列核苷酸在正类数据集中的前向点联合互信息值其中,x是第k个位置的核苷酸,x∈{A,C,G,X}, 是第k+β+1个位置的核苷酸,是第k+β+2个位置的核苷酸, 是正类数据集所有序列样本第k个、第k+β+1个、第k+β+2个位置上三核苷酸 的出现频率, 是正类数据集所有序列样本第k+β+1个、第k+β+2个位置上二核苷酸 的出现频率, 是正类数据集所有序列样本第k个位置上核苷酸x的出现频率;

按下式确定待编码DNA/RNA序列核苷酸在正类数据集中的后向点联合互信息值其中, 是第k-β-1个位置的核苷酸, 是第k-β-2个位置的核苷酸,是正类数据集所有序列样本第k个、第k-β-1个、第k-β-2个位置上三核苷酸 的出现频率, 是正类数据集所有序列样本第k-β-1个、第k-β-2个位置上二核苷酸 的出现频率;

待编码DNA/RNA序列样本第k个位置的核苷酸在正类数据集中的点联合互信息编码值定义为前向点互信息值 和后向点互信息值 的均值,长度l的DNA/RNA序列样本编码成长度为l-2β-4的点互信息特征向量V+:(4.2)按下式确定待编码DNA/RNA序列核苷酸在负类数据集中的前向点联合互信息值其中, 是负类数据集所有序列样本第k个、第k+β+1个、第k+β+2个位置上三核苷酸的出现频率, 是负类数据集所有序列样本第k+β+1个、第k+β+2个位置上二核苷酸 的出现频率, 是负类数据集所有序列样本第k个位置上核苷酸x的出现频率;

按下式确定待编码DNA/RNA序列核苷酸在负类数据集中的后向点联合互信息值其中, 是负类数据集所有序列样本第k个、第k-β-1个、第k-β-2个位置上三核苷酸的出现频率, 是负类数据集所有序列样本第k-β-1个、第k-β-2个位置上二核苷酸 的出现频率;

待编码DNA/RNA序列样本第k个位置的核苷酸在负类数据集中的点联合互信息编码值定义为前向点互信息值 和后向点互信息值 的均值,长度l的DNA/RNA序列样本编码成长度为l-2β-4的点互信息特征向量V-:(4.3)给定长度l的待编码DNA/RNA序列样本,通过向量V+和V-对应元素相减确定其特征向量V:V=[Vβ+3,Vβ+4,…,Vk]

(5)特征组合

参数β取值为0时,特征向量V(0)为[V3,V4,V5,…,Vl-3,Vl-2],元素个数是l-4,β取值为1时,特征向量V(1)为[V4,V5,V6,…,Vl-4,Vl-3],元素个数是l-6,…,β取值为(l-7)/2时,特征向量V((l-7)/2)为[V(l-1)/2,V(l+1)/2,V(l+3)/2],元素个数是3,β取值为(l-5)/2时,特征向量V((l-5)/2)为[V(l+1)/2],元素个数是1;将参数β不同取值确定的特征向量组合成元素个数为(l-3)2/4的高维特征向量[V(0),V(1),…,V((l-7)/2),V((l-5)/2)];

(6)DNA/RNA序列样本编码

采用上述步骤(1)-步骤(5),将DNA/RNA序列数据集D编码为数值数据集D',s为数值数据集D'的样本数,s的取值为有限的正整数,(l-3)2/4为数值数据集D'的特征数。