买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法

￥15600

专利号： 2019113469142

申请人：邵阳学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-03-20

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，包括以下步骤：

步骤1：将丁酰化修饰的组蛋白序列进行分割，构建正、负样本集；

步骤2：使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示和归一化操作；

步骤3：使用训练集对随机森林分类器进行训练；

步骤4：将蛋白序列输入到训练后的随机森林分类器，分类器输出丁酰化修饰位点的标注信息。

2.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于：在所述步骤1中，沿着组蛋白序列滑动，将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段；在序列前端或末端，若片段的长度不足（2N+1）氨基酸残基，则以字符X补齐；标注为丁酰化修饰的片段为正样本，随机选择相当数量的非标注为丁酰化修饰的片段为负样本，正样本和负样本共同构成训练集。

3.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，所述步骤2包括以下内容：

3.1正负样本的信息熵特征表示，包括以下步骤：（1）计算正样本的氨基酸信息熵（PIEA），即其中表示正样本氨基酸α在位置i上出现的概率，可通过训练集中所有正样本的氨基酸α在位置i上的频率来估计；

（2）计算正样本的位置信息熵（PIEP），即其中表示氨基酸字符集合；

（3）计算负样本的氨基酸信息熵（NIEA），即其中表示负样本中氨基酸α在位置i上出现的概率，可通过训练集中所有负样本的氨基酸α在位置i上的频率来估计；

（4）计算负样本的位置信息熵（NIEP），即（5）一个样本s追加到丁酰化修饰系统后，其氨基酸和位置的信息熵计算如下：和，其信息熵的

改变分别为PVIEA = PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i)；

（6）一个样本s追加到非丁酰化修饰系统后，其氨基酸和位置的信息熵计算如下：和，其信息熵的改

变分别为NVIEA = NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i)；

（7）样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP；

3.2正负样本的k间隔氨基酸对组成特征表示，其特征在于计算不超过1个残基的氨基酸对组成频率，即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX（B为任何一个残基）氨基酸对的频率；

3.3对信息熵和k间隔氨基酸对组成特征进行归一化操作，即其中表示未归一化的信息熵或k间隔氨基酸对组成特征。

4.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法，其特征在于，所述步骤3使用随机森林作为学习算法，该算法训练决策树的样本和特征属性是随机选择的，最终组合决策树的结果为最终分类结果。