1.一种基于多态式结构化碱基比对方式的microRNA靶标预测方法,其特征在于,包括如下步骤:(1)将miRNA文件及其潜在靶基因文件分别作为输入单元;
(2)提取步骤(1)中两个分别来自miRNA文件和靶基因文件的输入单元组成一个预测单元;
(3)设置移动量和跳过数,根据移动量和跳过数并基于多态式碱基组合拆分成多个比对单元,比对并生成输出单元,采用评分系统和能量分数系统计算并分析每个输出单元的评分和能量分数,根据评分和能量分数筛选合适的潜在靶基因,格式化输出;
所述多态式碱基组合包括以下几种:
其中,0和1表示碱基的匹配状态,0表示不匹配,1表示匹配;
(1)Group 1:1+~,其中~代表连续的碱基序列,1+表示当miRNA第一个碱基匹配时,确定比对;
(2)Group 2:~+1,其中~的含义同上,+1表示当前面连续的碱基序列匹配时,确定比对;
(3)Group 3:11,表示当同时拥有两个连续匹配的碱基时,确定比对;
(4)Group 4:0111,表示当连续的四个碱基中满足前一位碱基不匹配且后三位连续的碱基匹配时,确定比对;
(5)Group 5:00111,表示当连续的五个碱基中满足前两位连续的碱基不匹配且后三位连续的碱基匹配时,确定比对;
(6)Group 6:000111,表示当连续的六个碱基中满足前三位连续的碱基不匹配且后三位连续的碱基匹配时,确定比对;
所述输出单元的评分系统为:
(1)权重系数:用于衡量miRNA各碱基位点的重要程度W1:miRNA 5’‑>3’端的第一个碱基;
W2:miRNA 5’‑>3’端的第二到八位种子序列;
W3:miRNA 5’‑>3’端的第十一到十三位的三个重要碱基;
W4:miRNA 5’‑>3’端的其他碱基;
(2)校正系数:W5,用于校正匹配与不匹配碱基评分之间的数量关系(3)比例系数:Wx,用于调整各权重系数的比例关系,公式如下所示:(4)miRNA碱基序列:
MirLen:miRNA序列的总碱基数,即总长度;
(5)匹配碱基数值:
MatchA:miRNA 5’‑>3’端的第一个碱基是A碱基且匹配的数量;
MatchSeed:miRNA 5’‑>3’端的种子序列匹配的数量;
Match11to13:miRNA 5’‑>3’端的第十一到十三个碱基匹配的数量;
MatchOther:miRNA 5’‑>3’端的其他碱基匹配的数量;
公式如下所示:
(6)不匹配碱基数值:
LoopA:miRNA 5’‑>3’端的第一个碱基未匹配的数量;
LoopSeed:miRNA 5’‑>3’端的种子序列未匹配的数量;
Loop11to13:miRNA 5’‑>3’端的第十一到十三个碱基未匹配的数量;
LoopOther:miRNA 5’‑>3’端的其他碱基未匹配的数量;
公式如下所示:
ScoreLoop=W1×LoopA+W2×LoopSeed+W3×Loop11to13+W4×LoopOther(7)缺口碱基数值:
GapNum:miRNA 5’‑>3’端形成缺口的碱基数量;
公式如下所示:
ScoreGap=GapNum×W5
(8)评分公式:如下所示
所述能量分数系统为:
(1)A:T碱基对数值:
MatchAT:表示在输出单元中含有A:T碱基对的数量;
(2)C:G碱基对数值:
MatchCG:表示在同一个比对单元中含有C:G碱基对的数量;
(3)U:G碱基对数值:
MatchUG:表示在同一个比对单元中含有U:G碱基对的数量;
(4)全部碱基对数值:
MatchALL:表示在同一个比对单元中所有碱基对的数量;
(5)能量公式:如下所示
。
2.一种基于多态式结构化碱基比对方式的microRNA靶标预测计算机程序产品,其特征在于,该计算机程序被处理器执行时实现权利要求1所述microRNA靶标预测方法的步骤。
3.根据权利要求2所述的计算机程序产品,其特征在于,所述计算机程序TarP的结构由输入数据、执行程序、输出数据三个部分组成。
4.根据权利要求3所述的计算机程序产品,其特征在于,所述输入数据是指miRNA文件及其潜在靶基因文件,两类输入文件的格式均以两行为一个输入单元,每一个输入单元的第一行为以“>”开头的基因名,第二行则为对应的碱基序列。
5.根据权利要求3所述的计算机程序产品,其特征在于,所述执行程序用于处理输入数据,提取两个分别来自miRNA文件和靶基因文件的输入单元组成一个预测单元,根据移动量和跳过数并基于多态式结构化碱基比对原则拆分成多个比对单元,比对并生成输出单元,计算并分析每个输出单元的评分和能量分数,根据评分和能量分数筛选合适的潜在靶基因,格式化输出。
6.根据权利要求3所述的计算机程序产品,其特征在于,所述输出数据为执行程序运行结束后的输出结果,包括两个文件,一个文件为潜在靶基因的结果文件,另一个为miRNA与其潜在靶基因的靶位点结合文件。
7.根据权利要求6所述的计算机程序产品,其特征在于,所述靶基因结果文件主要包含miRNA基因及其预测的潜在靶基因的名称、碱基序列、输出单元的碱基序列、比对状态值、输出单元的匹配总数、miRNA第一个碱基匹配数、miRNA种子序列碱基匹配总数、miRNA第11到第13个碱基的匹配总数、输出单元的评分及能量分数。
8.根据权利要求6所述的计算机程序产品,其特征在于,所述靶位点结合文件主要包括潜在靶基因的名称及序列,miRNA的名称及序列,输出单元的评分及能量分数,比对单元的靶位点结合图。
9.一种计算机系统,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行权利要求2‑8所述计算机程序产品。