1.一种多任务高阶SNP上位检测方法,其特征在于,所述多任务高阶SNP上位检测方法包括:利用Plink软件从VCF文件中读取出PED,MAP格式数据,转换位二进制格式文件整理成样本矩阵;
根据数据中SNP位点和样本量的大小,设置搜索算法参数;
将SNP样本数据读入,开始准备第一阶段搜索;
利用多任务、多和声记忆库和声搜索算法进行高阶SNP上位组合检测;
所述利用Plink软件从VCF文件中读取出PED,MAP格式数据,进一步转换位二进制格式文件FAM,BED,BIM整理成样本矩阵;
所述根据数据中SNP位点和样本量的大小,设置和声搜索算法参数:最大进化代数MaxT,和声记忆库大小HMS,和声记忆库考虑概率HMCR,局部微调概率PAR;
所述多任务高阶SNP上位检测方法的和声搜索算法是元启发式搜索算法,对于多任务高阶SNP上位检测问题,表示为如下组合优化问题:;
其中X表示k个SNP的组合,该优化问题的目标是从基因组中找出与疾病状态Y具有最强关联性的SNP上位组合X*;
所述多任务高阶SNP上位检测方法采用的的多任务和声搜索算法的目标是从基因组中发现多个不同阶数的SNP上位组合,数学模型表示为:;
i
其中,X 表示一个ki阶的SNP组合,ki≥2,该问题的目标是从基因组中发现与疾病状态
1* 2* M*
具有最强关联性的k1阶,k2阶,…,kM阶的SNP上位组合X ,X ,…,X 。
2.如权利要求1所述的多任务高阶SNP上位检测方法,其特征在于,所述多任务高阶SNP上位检测方法每个任务对应一个独立的和声记忆库HM,分别采用各自的选择机制进行优胜劣汰;在搜索过程中,每次迭代,为每一个任务生成一个新个体;新个体的产生通过两种方式生成:群内学习生成,群体间组合交叉学习生成;
多任务和声搜索方法的每个任务可以采用相同类型的关联性评价函数,或每个和声记忆库中的个体可以采用多个不同类型的评价函数;
采用的统一编码机制:多个任务采用了统一的编码,采用统一的搜索空间进行搜索,在进行k阶任务的关联性评价时,从编码的左侧开始读取,连续选择k位编码作为该任务的一个个体编码。
3.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求书1‑2任意一项所述方法的步骤。
4.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求书1‑2任意一项所述方法的步骤。
5.一种单核苷酸多态性上位检测信息数据处理终端,其特征在于,所述单核苷酸多态性上位检测信息数据处理终端用于实现权利要求1~2任意一项所述的多任务高阶SNP上位检测方法。
6.一种实施权利要求1~2任意一项所述多任务高阶SNP上位检测方法的多任务高阶SNP上位检测系统,其特征在于,所述多任务高阶SNP上位检测系统包括:数据预处理模块,用于利用Plink软件从VCF文件中读取出PED,MAP格式数据,转换位二进制格式文件整理成样本矩阵;
算法参数设置模块,用于根据数据中SNP位点和样本量的大小,设置和声搜索算法参数:最大进化代数MaxT,和声记忆库大小HMS,和声记忆库考虑概率HMCR,局部微调概率PAR;
数据读取模块,用于将SNP样本数据读入,开始准备第一阶段搜索;
多任务高阶SNP上位组合检测模块,用于利用多任务、多和声记忆库和声搜索算法进行高阶SNP上位组合检测。