利索能及
我要发布
收藏
专利号: 2023102713661
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双重测序的超低频DNA突变识别方法,其特征在于,包括以下步骤:

(1)对原始双重测序数据进行质量控制,去除低质量和被污染的序列,得到清洗后的测序数据;

(2)UMI聚类,根据barcode标签对清洗后的测序数据进行分组,并提取barcode,建立barcode索引,并将barcode与索引进行比对,比对后的结果用networkx可视化,根据编辑距离对barcode进行校正,校正后的barcode放回到序列中;

(3)多序列比对,将步骤(2)中校正后的read family组内的序列进行多序列比对,确定序列的共同区段,并根据比对结果获取每个位置上碱基的排列情况,分别建立正义链和反义链的read family,并利用读段互补的特性筛选read family;

(4)生成单链一致性序列SSCS,对正义链而言,如果步骤(3)中family size大于等于3条,则保留该组read family,否则,予以丢弃,对于保留下来的read family从每次读取中提取“核心”序列区域,统计序列每个位置上A/T/C/G四种碱基出现的频率,把频率最高的作为主要碱基,并根据所述主要碱基的频率计算当前位置的共识质量得分,并生成单链一致性序列SSCS,对反义链而言,同样为一致性序列形成单链一致序列SSCS;

所述“核心”序列区域指读段中心位置长度为30±5bp的碱基片段;

所述共识质量得分的计算公式:

其中,f是当前位点的最大碱基频率;

(5)生成双链一致性序列DCS,将步骤(4)中生成的单链一致性序列SSCS序列与其互补的SSCS序列生成DCS序列;

(6)突变识别,将步骤(5)中生成的DCS序列进行过滤,然后与参考基因组进行比对,识别序列片段上的单核苷酸多态性、DNA插入与缺失错误和测序错误。

2.根据权利要求1所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:步骤(2)所述networkx网络图,每个顶点对应一个barcode标签,边缘连接具有单个碱基差异的两个barcode标签。

3.根据权利要求1或2所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:

所述barcode校正,指校正barcode在PCR过程中的碱基替换、测序过程中的碱基识别错误和插入或缺失所产生的额外的人工错误。

4.根据权利要求1所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:步骤(4)所述read family中,读段每个特定位置上至少有90%的碱基相同的序列用于创建SSCS序列。

5.根据权利要求1或4所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:

计算共识质量得分,从每个reads family的序列中提取“核心”序列区域,并利用出现频率最高的核心区域为每条reads选择偏移量,并通过共识质量得分计算给定位置的质量分数;

在计算共识质量得分的过程中,只考虑碱基质量分数高于阈值Phred 20的碱基和突变频率‑Q/10高于10 的突变。

6.根据权利要求5所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:计算共识质量得分时,把每个位置上的频率最高的碱基进行组合,形成共识序列,所述共识序列通过确定序列每个位置出现频率最高碱基的共识质量得分获得的,否则,则当前位置的碱基用“N”进行代替,序列中有gap的位置也被认为是碱基。

7.根据权利要求1所述一种基于双重测序的超低频DNA突变识别方法,其特征在于:所述DCS过滤包括:生成的双链一致性序列DCS,需要将正义链SSCS和反义链SSCS逐位置进行比较,若同一位置上正义链和反义链上碱基互补,则保留该位置的碱基,并计算正义链和反义链的碱基质量,取平均值作为该位置上碱基的质量;若同一位置上正义链和反义链上碱基不互补,则用N来代替该位置上的碱基;若同一位置上一条链为gap,另一条链为非gap,则用N来替代该位置的碱基,生成双链一致性序列DCS;如果一条SSCS没有匹配的相反链共识序列,则过滤掉该序列。

8.一种基于双重测序的超低频DNA突变识别装置,其特征在于,能够执行权利要求1-7任一项所述基于双重测序的超低频DNA突变识别方法,包括:数据清洗单元,用于对原始双重测序数据进行质量控制,去除低质量和被污染的序列,得到清洗后的测序数据;

UMI聚类单元,用于根据barcode标签对清洗后的测序数据进行分组,并提取barcode,建立barcode索引,并将barcode与索引进行比对,比对后的结果用networkx可视化生成networkx网络图,根据编辑距离对barcode进行校正,校正后的barcode放回到序列中;

多序列比对单元,用于将校正后的read family组内的序列进行多序列比对,确定序列的共同区段,并根据比对结果获取每个位置上碱基的排列情况,分别建立正义链和反义链的read family,并利用读段互补的特性筛选read family;

单链一致性序列SSCS生成单元,用于对正义链而言,如果family size大于等于3条,则保留该组read family,否则,予以丢弃,对于保留下来的read family从每次读取中提取“核心”序列区域,统计序列每个位置上A/T/C/G四种碱基出现的频率,把频率最高的作为主要碱基,并根据所述主要碱基的频率计算当前位置的共识质量得分,并生成单链一致性序列SSCS,对反义链而言,同样为一致性序列形成单链一致序列SSCS;所述“核心”序列区域指读段中心位置长度为30±5bp的碱基片段;

所述共识质量得分的计算公式:

其中,f是当前位点的最大碱基频率;

双链一致性序列DCS生成单元,用于将生成的单链一致性序列SSCS序列与其互补的SSCS序列生成DCS序列;

突变识别单元,用于将生成的DCS序列进行过滤,然后与参考基因组进行比对,识别序列片段上的单核苷酸多态性、DNA插入与缺失错误和测序错误。

9.一种电子设备,包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于双重测序的超低频DNA突变识别方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于双重测序的超低频DNA突变识别方法的步骤。