利索能及
我要发布
收藏
专利号: 2024113812398
申请人: 重庆大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多标签因果特征选择方法,其特征在于,包括步骤:

S1、获取多标签数据集,并对所述多标签数据集进行预处理,其中,所述多标签数据集为多标签基因表达数据集;

S2、基于预处理后的多标签基因表达数据集,利用一元近似马尔可夫毯对每一个标签寻找近似马尔可夫毯;具体步骤包括:S21、通过计算每个标签与特征之间不确定度来确定阈值;具体为,计算标签与特征两两之间的对称不确定度,取所有对称不确定度的前t%的平均值作为阈值α,其中t为设定的阈值;

S22、判断特征与标签是否有关,如果标签跟特征间的对称不确定度大于α,则表示标签与特征之间有关联,若小于α,则表示标签与特征之间无关,从特征集合中删除此特征;

S23、利用一元近似马尔可夫毯,删除步骤S22得到的特征集合中的虚假MB特征;

S24、使用对称性检验,删除步骤S23得到的特征集合中的假MB特征,得到每个标签的近似马尔可夫毯;

其中,所述一元近似马尔可夫毯具体为:

在一个贝叶斯网络中,给定一个标签Ti,两个特征Fi、Fj,如果满足下列公式:SU(Fi;Ti)>SU(Fj;Ti)&&SU(Fi;Fj)>SU(Fj;Ti)    (2)I(Ti;Fj|Fi)

则对于Fj而言,Fi为Ti的一元近似马尔可夫毯;

其中,SU代表对称不确定度,是经过互信息归一化而来,代表着两个变量之间的相关性,I(Ti;Fi)代表两个变量之间的互信息的大小,而I(Ti;Fj|Fi)代表着给定Fi变量后,Ti与Fj之间的条件互信息大小,衡量Fi对于Ti与Fj之间的相关性影响程度;若对于Fj而言,Fi为Ti的一元近似马尔可夫毯特征,此时Fj一定不是Ti的MB特征,所以删除Fj;

S3、删除标签的近似马尔可夫毯中包含的其他标签,并恢复等效特征,得到标签的马尔可夫毯特征;

S4、使用快速对称性检验方法确保步骤S3中恢复的特征属于标签的马尔可夫毯,通过快速对称性检验方法的特征将被保留,未通过的特征将被删除;

S5、将所有标签的马尔可夫毯特征进行合并,得到基因表达数据特征子集,实现对基因表达数据的特征选择。

2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述预处理包括:数据清洗和对不同数据进行离散化编码操作。

3.根据权利要求1所述的方法,其特征在于,步骤S3具体为:删除标签的近似马尔可夫毯中包含的其他标签,同时恢复由于标签的等效信息导致误删的特征,得到标签的马尔可夫毯特征。

4.根据权利要求1所述的方法,其特征在于,步骤S4具体为:如果某个特征X是标签T的马尔可夫毯的一部分,那么T也应该是X的马尔可夫毯的一部分;所述对称性确保了特征和标签之间的一致性和互相包含性。

5.根据权利要求1所述的方法,其特征在于,在步骤S5后,基于多标签因果特征选择方法得到的基因表达数据特征子集,对基因分类模型进行训练,得到训练好的基因分类模型;

获取待分类基因数据,基于待分类基因数据的所述特征子集,利用训练好的基因分类模型对所述待分类基因数据进行分类,得到所述待分类基因数据的标签。

6.一种多标签因果特征选择系统,其特征在于,所述特征选择系统执行如权利要求1所述的多标签因果特征选择方法,包括:数据获取及预处理模块、近似马尔可夫毯特征获取模块、马尔可夫毯特征确定模块、特征验证模块、特征合并模块;

数据获取及预处理模块,获取多标签数据集,并对所述多标签数据集进行预处理,其中,所述多标签数据集为多标签基因表达数据集;

近似马尔可夫毯特征获取模块,基于预处理后的多标签基因表达数据集,利用一元近似马尔可夫毯对每一个标签寻找近似马尔可夫毯特征;

马尔可夫毯特征确定模块,删除标签的近似马尔可夫毯中包含的其他标签,并恢复等效特征,得到标签的马尔可夫毯特征;

特征验证模块,使用快速对称性检验方法确保恢复的特征属于标签的马尔可夫毯,通过快速对称性检验方法的特征将被保留,未通过的特征将被删除;

特征合并模块,将所有标签的马尔可夫毯特征进行合并,得到基因表达数据特征子集,实现对基因表达数据的特征选择。