利索能及
我要发布
收藏
专利号: 2024118065080
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法,其特征在于,包括以下步骤:S1、采集肺炎患者的多模态数据,包括症状数据、实验室检测结果和影像学检查特征,首先针对部分患者缺失的检测指标,采用统计方法进行补全,然后进行数据标准化,即将数值型特征归一化,像痰液颜色描述这种文本型特征编码为分类变量;

S2、构建贝叶斯网络,节点包括输入特征和病因标签,解决患者病因标签的重叠与歧义问题,最后生成标签置信度矩阵;

所述步骤S2包括以下步骤:

步骤S2.1:定义变量之间的关系,根据肺炎数据集,首先令表示症状、实验室指标等特征的随机变量为C={c1,c2,c3,...,ci,...,cn},其中ci为第i个肺炎特征,cn为第n个肺炎特征,n为特征的个数,令表示病因标签的随机变量为L,接着额外引入部分条件概率变量Ppartial,表示部分特征和目标标签之间的特殊关系;然后假设变量之间的关系,由于标签一般是由多个特征共同决定的,因此假设特征对标签有直接影响,特征C之间假设是条件独立,意味着每个特征在知道标签L之后,彼此之间不再有联系,而Ppartial独立于特征,但与标签L直接相关;

步骤S2.2:构建贝叶斯网络的图形结构,将变量定义为节点,根据第一步定义的变量之间的关系,特征C={c1,c2,c3,...,ci,...,cn}有指向标签L的有向边,表示特征会影响标签,特征之间没有边,它们是条件独立的;

步骤S2.3:确定每个节点的条件概率表,表示节点的概率分布,首先计算每个标签L的先验概率P(L):这个先验概率是指在不提供特征数据时,每个标签的概率分布;

接着计算每个特征的条件概率分布P(ci∣L),即对于每个特征ci在给定标签L的条件下,各个特征的概率分布,假设ci满足正态分布,则:其中μ为特征ci在标签L下的均值,σ为标准差,exp(·)为指数函数;由于特征之间是条件独立的,所以每个特征的概率只依赖于标签,则联合条件概率分布P(C∣L)公式为:然后计算部分条件概率Ppartial(L),即样本对类别的部分标签概率,其概率值为0或1;

步骤S2.4:根据贝叶斯定理计算后验概率,结合第三步中的先验概率P(L)和条件概率P(C∣L)和部分条件概率Ppartial(L)求解出后验概率P(L∣∣C,Ppartial),由于特征是条件独立的,把定理进行简化为:其中,L′表示某个标签,最后将每个样本的每个候选标签的后验概率作为标签置信度,构成标签置信度矩阵;

S3、构建邻域粗糙集模型,将患者样本划分为多个邻域,根据标签置信度矩阵划分等价类,结合邻域和等价类计算特征依赖度,并将其最为特征评价指标;

S4、根据依赖度得出特征的显著性,计算互信息和条件熵得到特征的冗余度,根据显著性和冗余度筛选出最优特征子集。

2.根据权利要求1所述的面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法,其特征在于,所述步骤S3包括以下步骤:步骤S3.1:构造邻域粒度,首先对样本集U={x1,x2,x3,...,xi,...xm}的特征集C={c1,c2,c3,...,ci,...,cn}进行动态阈值的计算,其中xi为第i个样本,xm为第m个样本,m为样本的个数,邻域阈值δB被定义为特征子集C的特征标准差的加权组合,公式如下:其中,σ(c)表示特征c的标准差, 表示特征c的均值,|C|为特征总数,|·|表示集合中元素的数量,此公式通过标准差和均值的比值,衡量了各特征的离散程度并自适应调整邻域阈值,适应特征间的差异性;

接着定义样本xi在特征子集 上的邻域δB(xi)

δB(xi)={xj∣∣ΔB(xi,xj)≤δB,xi,xj∈U}     (6)其中,ΔB(xi,xj)为样本xi和xj在特征子集B上的欧式距离,xi为第i个样本,xj为第j个样本,δB为邻域阈值;

最后,得出邻域关系矩阵R,矩阵元素Rij满足如下规则:

步骤S3.2:根据步骤2中的标签置信度矩阵生成等价类,即通过每次选择最大置信度的方式直接生成等价类;

步骤S3.2.1:设标签集合L={L1,L2,L3,...Li,...,Lk},其中Li为第i个决策标签,Lk为第k个决策标签,k为标签个数,标签置信度矩阵P=[pij],其中pij表示样本xi属于标签Lj的置信度,Lj为第j个决策标签, 且满足:步骤S3.2.2:每个样本xi根据其在置信度矩阵P中的最大置信度标签进行划分,样本xi的标签由以下公式确定:其中argmax(·)表示pij达到最大值时输入的j,对于标签Lj,等价类 定义为:步骤S3.3:根据邻域粒度和等价类构建上下近似集并计算依赖度,

步骤S3.3.1:在动态邻域阈值δB的作用下,基于样本的邻域关系定义上下近似集,对于特征子集B下的等价类 下近似集 表示所有在B的邻域中完全属于等价类 的样本集合,定义如下:

上近似集 表示所有在特征子集B的邻域中至少有部分样本属于等价类的样本集合,定义如下:

步骤S3.3.2:正域POSB(U)是所有能够被准确划分到等价类的样本集合,其定义为:依赖度Dep(B,U)表示特征子集B对样本集U的分类能力,其定义为:

3.根据权利要求1所述面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法,其特征在于,所述步骤S4包括以下步骤:步骤S4.1:计算显著性,对特征ck∈C,其显著性定义为加入特征ck后对依赖度的增量:σ(ck,B)=Dep(B∪{ck},U)‑Dep(B,U)      (15)显著性表示特征ck对当前特征子集B的分类贡献,当特征ck的显著性σ(ck,B)=0时,将其从候选特征集中移除,否则加入候选集;

步骤S4.2:冗余度用于评估特征之间的重复信息,对于特征cj∈C,冗余度R(ci,cj)定义为:其中,I(ci;cj)表示特征ci和cj的互信息,H(ci)表示特征ci的熵,冗余度反映了特征之间的信息重叠程度;互信息I(ci;cj)用于衡量两个特征ci和ci之间的相关性或信息共享程度,计算公式为:其中,p(x,y)表示ci和ci同时取值为x和y的概率,p(x),p(y)分别是ci和ci的边缘概率分布;熵H(ci)表示单个特征的ci的不确定性程度,定义为:若冗余度R(ci,cj)超过设定阈值0.9,判定ci与ci之间存在高度冗余,则删除冗余特征,通过显著性和冗余度的联合分析,最终得到优化的特征子集;

步骤S4.3:通过显著性和冗余度的联合分析,最终得到优化的特征子集。