1.一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述系统包括:变异位点发现模块,用于对原始测序数据进行处理,并找出所述原始测序数据中包含的变异位点;
ANNVOAR信息注释模块,对所述变异位点进行所在染色体、参考等位基因、替换等位基因、所在外显子位置、罕见性、所在基因、氨基酸变化、各类可计算工具对变异有害性计算得分及预测结果、不同人群中变异频率的信息注释;
数据资源支撑模块,用以提供所述系统在遗传数据处理过程中需要的数据资源文件;
风险计算模块,基于所述数据资源文件对经过注释的变异位点数据进行遗传病的风险计算;
风险提示模块,用于设定风险提示判定规则,并响应于所述风险计算模块的遗传病风险计算结果,给出遗传病风险提示结果;
其中,所述变异位点发现模块、ANNVOAR信息注释模块、数据资源支撑模块、风险计算模块和风险提示模块依次连接在一起;
所述风险计算模块包括遗传病风险因素计算单元、药物敏感风险因素计算单元、ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元;
其中,所述遗传病风险因素计算单元、药物敏感风险因素计算单元的计算过程具体为:首先根据数据资源支撑模块定义的遗传风险因素文件、药物敏感风险因素文件、human_g1k_v37.fa文件,利用samtools的mpileup方法从数据预处理单元处理后的bam文件中抽取对应染色体及位置的序列信息,写入相应的文件;然后,根据遗传风险因素文件、药物敏感风险因素文件中定义的每一种疾病情况,读取出疾病类型对应的基因,从数据资源支撑模块生成的感兴趣基因对应的变异数据文件中抽取出相关变异记录,将变异记录写入新的文件;同时,对于每一种疾病情况,从第一步生成的序列信息文件中读取对应染色体及位置的序列,检查对应染色体及位置处的等位基因,如果和参考等位基因相同,则表示该位置的遗传变异没有风险,不会导致相应疾病或药物敏感情况的发生;否则,如果和替换等位基因相同,则表示该位置遗传变异存在风险,很大可能会导致相应疾病或药物敏感情况的发生;
ACMG遗传病风险计算单元、隐性遗传病风险计算单元和孟德尔遗传病风险计算单元均需输入相应的基因列表文件和经注释的变异信息文件,输出包含变异记录的相应文件;具体的计算过程具体为:首先对于ACMG遗传病风险构造相应的字典结构,从对应的基因列表文件中读取基因名和对应疾病名,键名为基因名,键值为疾病名;其中,对于隐性遗传病,键名为基因名,键值为OMIM编号+疾病名;对于孟德尔遗传病,键名为基因名,键值为染色体+位置信息;然后,依次读取注释变异文件中的每一行,抽取基因名信息,如果该基因名出现在上一步的字典结构中,则将变异文件中的当前行写入对应的遗传病风险文件中。
2.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述变异位点发现模块包括序列比对与映射单元、序列数据预处理单元和SNPs与小片段INDELs变异发现单元;所述序列比对与映射单元用于接收由序列数据构成的原始测序数据,并将序列数据映射到参考基因组上;所述序列数据预处理单元用于对映射到参考基因组上的序列数据做预处理;所述SNPs与小片段INDELs变异发现单元用于识别预处理后的序列数据相对参考基因组的所述变异位点,并计算每一所述变异位点的基因型。
3.根据权利要求2所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述变异位点发现模块输入为fastq格式的原始测序数据文件,所述变异位点发现模块输出为包含所有变异位点的vcf格式文件;
所述序列比对与映射单元使用BWA‑MEM算法完成所述原始测序数据的映射操作;所述序列数据预处理单元使用Picard工具对映射到参考基因组上的原始测序数据做预处理;所述SNPs与小片段INDELs变异发现单元使用GATK工具寻找所述变异位点。
4.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述ANNVOAR信息注释模块包括基于基因的注释单元、基于区域的注释单元和基于筛选的注释单元;其中,所述基于基因的注释单元包括对refGene、ensGene和knownGene三个不同dbtype参数的信息注释;所述基于区域的注释单元包括对phastConsElements46way、tfbsConsSites、cytoBand、wgRna、targetScanS、genomicSuperDups、dgvMerged、wgEncodeRegDnaseClustered、wgEncodeRegTfbsClustered九个不同dbtype参数的信息注释;所述基于筛选的注释单元包括对1000g2012apr_all、1000g2012apr_asn、
1000g2012apr_eur、1000g2012apr_afr、1000g2012apr_amr、snp138、ljb23_all、esp6500si_all、esp6500si_aa、esp6500si_ea、cg46、popfreq_all、clinvar_20170905、caddgt10、cosmic68、nci60、exac03十六个不同dbtype参数的信息注释。
5.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述数据资源文件包括自定义的基因列表、遗传风险因素文件、药物敏感风险因素文件;且所述自定义的基因列表包括ACMG遗传病基因列表、隐性遗传病基因列表和孟德尔遗传病基因列表,其中,所述隐性遗传病基因列表和孟德尔遗传病基因列表基于OMIM数据库设计;
所述OMIM为genemap文件,所述genemap文件包含基因名、表型和Cyto位置信息。
6.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述风险提示模块包括遗传类疾病风险提示单元、药物敏感风险提示单元,ACMG遗传病风险提示单元、隐性遗传病风险提示单元、孟德尔类遗传病风险提示单元;
所述遗传类疾病风险提示单元、药物敏感风险提示单元进行提示的具体步骤为:首先,读取遗传风险因素文件、药物敏感风险因素文件中的基因名称、标记物名称、dbSNP编号、染色体编号、位置、参考等位基因、替换等位基因数据;然后,读取风险计算模块生成的变异数据文件;接下来,对风险因素文件中的每一个风险情况,检查指定位置的等位基因是否存在有风险的变异,如果存在,则用红色标出对应的变异记录数据,并给出“存在有风险的等位基因”文字提示,否则不输出任何信息;随后,读取注释变异文件,逐一检查风险情况对应的基因是否存在罕见变异,如果存在罕见变异,则给出罕见等位基因所在染色体编号、位置、参考等位基因、替换等位基因、基因名、变异所在DNA位置,杂合或纯合性、变异类型信息;
ACMG遗传病风险提示单元、隐性遗传病风险提示单元和孟德尔类遗传病风险提示单元三个提示单元的具体提示过程为:首先打开风险计算模块输出的ACMG、隐性、孟德尔类遗传病变异注释文件,如果文件不为空,则读取变异坐标位置、转录子编号、核酸变化、氨基酸变化、所在外显子编号、杂合或纯合性、深度、频率、Clinvar、基因名、疾病名称信息;然后,检查Clinvar列内容是否为“致病性”;最后,检查得到Clinvar列内容是致病性,则用红色标出对应的变异记录,给出风险提示。
7.根据权利要求1所述的一种遗传病风险提示的基因测序数据处理系统,其特征在于,所述原始测序数据包括全外显子组测序数据或全基因组测序数据。
8.一种遗传病风险提示的基因测序数据处理方法,应用于权利要求1~6任一项所述的遗传病风险提示的基因测序数据处理系统,其特征在于,所述方法包括步骤:S1、选取原始测序数据输入至所述变异位点发现模块,找出原始测序数据中的所有变异位点;
S2、利用所述ANNVOAR信息注释模块对所述变异位点进行信息注释;
S3、所述数据资源支撑模块提供数据资源文件,所述风险计算模块基于所述数据资源文件对经过注释的所有变异位点数据进行风险计算,并输出对应的风险计算结果;
S4、所述风险提示模块基于所述风险计算结果,检查所述变异位点所在位置的等位基因是否存在遗传病风险的变异,以及是否是罕见变异,并结合风险提示判定规则,给出遗传病风险提示结果。
9.根据权利要求8所述的一种遗传病风险提示的基因测序数据处理方法,其特征在于,在步骤S1中,所述原始测序数据为fastq格式,所述变异位点存储在vcf格式文件中。