买专利、卖专利、专利购买、专利交易、专利出售、高企申报-面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法

￥28800

专利号： 2024118065080

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法，其特征在于，包括以下步骤：S1、采集肺炎患者的多模态数据，包括症状数据、实验室检测结果和影像学检查特征，首先针对部分患者缺失的检测指标，采用统计方法进行补全，然后进行数据标准化，即将数值型特征归一化，像痰液颜色描述这种文本型特征编码为分类变量；

S2、构建贝叶斯网络，节点包括输入特征和病因标签，解决患者病因标签的重叠与歧义问题，最后生成标签置信度矩阵；

所述步骤S2包括以下步骤：

步骤S2.1：定义变量之间的关系，根据肺炎数据集，首先令表示症状、实验室指标等特征的随机变量为C＝{c1,c2,c3,...,ci,...,cn}，其中ci为第i个肺炎特征，cn为第n个肺炎特征，n为特征的个数，令表示病因标签的随机变量为L，接着额外引入部分条件概率变量Ppartial，表示部分特征和目标标签之间的特殊关系；然后假设变量之间的关系，由于标签一般是由多个特征共同决定的，因此假设特征对标签有直接影响，特征C之间假设是条件独立，意味着每个特征在知道标签L之后，彼此之间不再有联系，而Ppartial独立于特征，但与标签L直接相关；

步骤S2.2：构建贝叶斯网络的图形结构，将变量定义为节点，根据第一步定义的变量之间的关系，特征C＝{c1,c2,c3,...,ci,...,cn}有指向标签L的有向边，表示特征会影响标签，特征之间没有边，它们是条件独立的；

步骤S2.3：确定每个节点的条件概率表，表示节点的概率分布，首先计算每个标签L的先验概率P(L)：这个先验概率是指在不提供特征数据时，每个标签的概率分布；

接着计算每个特征的条件概率分布P(ci∣L)，即对于每个特征ci在给定标签L的条件下，各个特征的概率分布，假设ci满足正态分布，则：其中μ为特征ci在标签L下的均值，σ为标准差，exp(·)为指数函数；由于特征之间是条件独立的，所以每个特征的概率只依赖于标签，则联合条件概率分布P(C∣L)公式为:然后计算部分条件概率Ppartial(L)，即样本对类别的部分标签概率，其概率值为0或1；

步骤S2.4：根据贝叶斯定理计算后验概率,结合第三步中的先验概率P(L)和条件概率P(C∣L)和部分条件概率Ppartial(L)求解出后验概率P(L∣∣C，Ppartial)，由于特征是条件独立的，把定理进行简化为：其中，L′表示某个标签，最后将每个样本的每个候选标签的后验概率作为标签置信度，构成标签置信度矩阵；

S3、构建邻域粗糙集模型，将患者样本划分为多个邻域，根据标签置信度矩阵划分等价类，结合邻域和等价类计算特征依赖度，并将其最为特征评价指标；

S4、根据依赖度得出特征的显著性，计算互信息和条件熵得到特征的冗余度，根据显著性和冗余度筛选出最优特征子集。

2.根据权利要求1所述的面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法，其特征在于，所述步骤S3包括以下步骤：步骤S3.1：构造邻域粒度，首先对样本集U＝{x1,x2,x3,...,xi,...xm}的特征集C＝{c1,c2,c3,...,ci,...,cn}进行动态阈值的计算，其中xi为第i个样本，xm为第m个样本，m为样本的个数,邻域阈值δB被定义为特征子集C的特征标准差的加权组合，公式如下：其中,σ(c)表示特征c的标准差, 表示特征c的均值，|C|为特征总数，|·|表示集合中元素的数量，此公式通过标准差和均值的比值，衡量了各特征的离散程度并自适应调整邻域阈值，适应特征间的差异性；

接着定义样本xi在特征子集上的邻域δB(xi)

δB(xi)＝{xj∣∣ΔB(xi，xj)≤δB，xi，xj∈U} (6)其中，ΔB(xi，xj)为样本xi和xj在特征子集B上的欧式距离，xi为第i个样本，xj为第j个样本,δB为邻域阈值；

最后，得出邻域关系矩阵R，矩阵元素Rij满足如下规则：

步骤S3.2：根据步骤2中的标签置信度矩阵生成等价类，即通过每次选择最大置信度的方式直接生成等价类；

步骤S3.2.1：设标签集合L＝{L1,L2,L3,...Li,...,Lk}，其中Li为第i个决策标签,Lk为第k个决策标签，k为标签个数，标签置信度矩阵P＝[pij],其中pij表示样本xi属于标签Lj的置信度，Lj为第j个决策标签，且满足：步骤S3.2.2：每个样本xi根据其在置信度矩阵P中的最大置信度标签进行划分，样本xi的标签由以下公式确定：其中argmax(·)表示pij达到最大值时输入的j，对于标签Lj，等价类定义为：步骤S3.3：根据邻域粒度和等价类构建上下近似集并计算依赖度，

步骤S3.3.1：在动态邻域阈值δB的作用下，基于样本的邻域关系定义上下近似集，对于特征子集B下的等价类下近似集表示所有在B的邻域中完全属于等价类的样本集合，定义如下：

上近似集表示所有在特征子集B的邻域中至少有部分样本属于等价类的样本集合，定义如下：

步骤S3.3.2：正域POSB(U)是所有能够被准确划分到等价类的样本集合，其定义为：依赖度Dep(B，U)表示特征子集B对样本集U的分类能力，其定义为：

3.根据权利要求1所述面向肺炎病因诊断的贝叶斯网络与粗糙集特征选择方法，其特征在于，所述步骤S4包括以下步骤：步骤S4.1：计算显著性，对特征ck∈C，其显著性定义为加入特征ck后对依赖度的增量：σ(ck，B)＝Dep(B∪{ck}，U)‑Dep(B，U) (15)显著性表示特征ck对当前特征子集B的分类贡献，当特征ck的显著性σ(ck，B)＝0时，将其从候选特征集中移除，否则加入候选集；

步骤S4.2：冗余度用于评估特征之间的重复信息，对于特征cj∈C，冗余度R(ci，cj)定义为：其中，I(ci；cj)表示特征ci和cj的互信息,H(ci)表示特征ci的熵，冗余度反映了特征之间的信息重叠程度；互信息I(ci；cj)用于衡量两个特征ci和ci之间的相关性或信息共享程度，计算公式为：其中，p(x，y)表示ci和ci同时取值为x和y的概率，p(x)，p(y)分别是ci和ci的边缘概率分布；熵H(ci)表示单个特征的ci的不确定性程度，定义为：若冗余度R(ci，cj)超过设定阈值0.9，判定ci与ci之间存在高度冗余，则删除冗余特征，通过显著性和冗余度的联合分析，最终得到优化的特征子集；

步骤S4.3：通过显著性和冗余度的联合分析，最终得到优化的特征子集。