1.一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,包括以下步骤:
步骤1:将丁酰化修饰的组蛋白序列进行分割,构建正、负样本集;
步骤2:使用信息熵和k间隔氨基酸对组成方法对正负样本进行特征表示和归一化操作;
步骤3:使用训练集对随机森林分类器进行训练;
步骤4:将蛋白序列输入到训练后的随机森林分类器,分类器输出丁酰化修饰位点的标注信息。
2.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于:在所述步骤1中,沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足(2N+1)氨基酸残基,则以字符X补齐;标注为丁酰化修饰的片段为正样本,随机选择相当数量的非标注为丁酰化修饰的片段为负样本,正样本和负样本共同构成训练集。
3.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,所述步骤2包括以下内容:
3.1正负样本的信息熵特征表示,包括以下步骤:(1)计算正样本的氨基酸信息熵(PIEA),即其中 表示正样本氨基酸α在位置i上出现的概率,可通过训练集中所有正样本的氨基酸α在位置i上的频率来估计;
(2)计算正样本的位置信息熵(PIEP),即其中 表示氨基酸字符集合;
(3)计算负样本的氨基酸信息熵(NIEA),即其中 表示负样本中氨基酸α在位置i上出现的概率,可通过训练集中所有负样本的氨基酸α在位置i上的频率来估计;
(4)计算负样本的位置信息熵(NIEP),即(5)一个样本s追加到丁酰化修饰系统后,其氨基酸和位置的信息熵计算如下:和 ,其信息熵的
改变分别为PVIEA = PIEA(α)-PIEAs(α)和PVIEP = PIEP(i)-PIEPs(i);
(6)一个样本s追加到非丁酰化修饰系统后,其氨基酸和位置的信息熵计算如下:和 ,其信息熵的改
变分别为NVIEA = NIEA(α)-NIEAs(α)和NVIEP = NIEP(i)-NIEPs(i);
(7)样本s的信息熵特征表示为PVIEA-NVIEA和 PVIEP-NVIEP;
3.2正负样本的k间隔氨基酸对组成特征表示,其特征在于计算不超过1个残基的氨基酸对组成频率,即模式为AA, AC, ...., XX, ABA, ABC, ..., 和 XBX(B为任何一个残基)氨基酸对的频率;
3.3对信息熵和k间隔氨基酸对组成特征进行归一化操作,即其中 表示未归一化的信息熵或k间隔氨基酸对组成特征。
4.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,所述步骤3使用随机森林作为学习算法,该算法训练决策树的样本和特征属性是随机选择的,最终组合决策树的结果为最终分类结果。
5.根据权利要求1所述的一种基于信息熵的计算预测组蛋白赖氨酸丁酰化修饰的方法,其特征在于,所述步骤4包含以下内容:
5.1沿着组蛋白序列滑动,将序列分割成以赖氨酸为中心、上下游各N个氨基酸残基的片段;在序列前端或末端,若片段的长度不足(2N+1)氨基酸残基,则以字符X补齐;
5.2 对片段按照权利要求1所述的步骤2进行信息熵、k间隔氨基酸对组成特征表示和归一化操作;
5.3 将片段的特征表示输入到权利要求1所述的步骤4中的随机森林分类器中,随机森林分类器对输出为1的结果标注为丁酰化修饰。