1.一种基因组长序列的比对方法,其特征在于,包括如下操作:
S1、参考基因组序列经加权syncmer采样处理,得到若干个第一采样k‑mer序列;若干个第一采样k‑mer序列与在参考基因组序列中的对应位置,经哈希值转化处理,得到参考基因组索引;
S2、查询序列经加权syncmer采样处理,得到若干个第二采样k‑mer序列;
将第二采样k‑mer序列中,seq序列在查询序列的位置,作为查询开始位置;将查询开始位置与k‑mer序列长度的和,作为查询结束位置;将seq序列在参考基因组索引的位置,作为参考开始位置;将参考开始位置与k‑mer序列长度的和,作为参考结束位置;
所有查询结束位置和对应参考结束位置,以及k‑mer序列长度,形成了候选位置集;
S3、所述候选位置集经成链法处理,得到比对基因序列位置链;
S4、基于比对基因序列位置链与查询开始位置、查询结束位置、参考开始位置、参考结束位置,得到基因组长序列比对结果。
2.根据权利要求1所述的基因组长序列的比对方法,其特征在于,所述S1中加权syncmer采样处理的操作具体为:获取参考基因组序列的每个位置的k‑mer序列,判断每个k‑mer序列中是否存在高频s‑mer序列;
若存在,将当前k‑mer序列中的所有s‑mer序列进行哈希值转化处理后分配权重,并调大高频s‑mer序列的权重至对应权重阈值,得到每个s‑mer序列的更新权重;每个s‑mer序列的更新权重经哈希值转化处理后,根据哈希值由大到小进行排序;若排序最后的s‑mer序列的排序位置与位置偏移量相同,则当前k‑mer序列为第一采样k‑mer序列;
若不存在,将当前k‑mer序列中的所有s‑mer序列进行哈希值转化处理,若哈希值为最小值的s‑mer序列在当前k‑mer序列的位置与位置偏移量相同,则当前k‑mer序列为第一采样k‑mer序列。
3.根据权利要求2所述的基因组长序列的比对方法,其特征在于,所述高频s‑mer序列,为参考基因组序列中出现频次大于频次阈值的s‑mer序列;频次阈值是基于参考基因组序列中s‑mer序列出现的总频次。
4.根据权利要求1所述的基因组长序列的比对方法,其特征在于,所述S3中成链法处理的操作具体为:基于候选位置集,构建横坐标为查询结束位置,纵坐标为参考结束位置的比对位置图;
将在查询序列中位置为最后一个的查询结束位置,在比对位置图中的锚点,作为第一成链起始点;
在第一成链区域内,将邻域范围内与第一成链起始点之间的成链分数最高的锚点,作为待成链锚点,与第一成链起始点进行连接,得到第一序列位置链;
将待成链锚点作为第一序列位置链的起始点,得到第二成链起始点,在第二成链区域内执行基于成链分数进行连接的操作,得到第二序列位置链;
以此类推,执行完最后一个锚点的连接,得到所述比对基因序列位置链。
5.根据权利要求4所述的基因组长序列的比对方法,其特征在于,所述成链分数是通过如下公式得到的:,
f(i)为第i个锚点的成链分数,与第j个成链起始点与第i个锚点之间的成链分数相等,f(j)为第j个成链起始点的成链分数,与第j个成链起始点和前一个成链起始点的成链分数相等,α(j,i)为第j个成链起始点与第i个锚点之间的匹配碱基数,β(j,i)为空位罚分,k为k‑mer序列的长度。
6.根据权利要求5所述的基因组长序列的比对方法,其特征在于,匹配碱基数的获取方法为:获取第j个成链起始点与第i个锚点的查询结束位置差和查询结束位置差,将查询结束位置差、查询结束位置差和k‑mer序列的长度三者中的最小值,作为第j个成链起始点与第i个锚点之间的匹配碱基数。
7.根据权利要求1所述的基因组长序列的比对方法,其特征在于,若比对基因序列位置链为多个,则将位置链总分大于总分阈值的比对基因序列位置链,按照位置链总分从大到小的顺序,依次执行S4中的操作;所述位置链总分为比对基因序列位置链中最后一个成链的锚点的成链分数。
8.一种基因组长序列的比对系统,用于实现权利要求1所述的基因组长序列的比对方法,其特征在于,包括:参考基因组索引生成模块,用于参考基因组序列经加权syncmer采样处理,得到若干个第一采样k‑mer序列;若干个第一采样k‑mer序列与在参考基因组序列中的对应位置,经哈希值转化处理,得到参考基因组索引;
候选位置集生成模块,用于查询序列经加权syncmer采样处理,得到若干个第二采样k‑mer序列;将第二采样k‑mer序列中,seq序列在查询序列的位置,作为查询开始位置;将查询开始位置与k‑mer序列长度的和,作为查询结束位置;将seq序列在参考基因组索引的位置,作为参考开始位置;将参考开始位置与k‑mer序列长度的和,作为参考结束位置;所有查询结束位置和对应参考结束位置,以及k‑mer序列长度,形成了候选位置集;
比对基因序列位置链生成模块,用于所述候选位置集经成链法处理,得到比对基因序列位置链;
基因组长序列比对结果生成模块,用于基于比对基因序列位置链与查询开始位置、查询结束位置、参考开始位置、参考结束位置,得到基因组长序列比对结果。
9.一种基因组长序列的比对设备,其特征在于,包括处理器和存储器,其中,所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1‑7任一项所述的基因组长序列的比对方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的基因组长序列的比对方法。