利索能及
我要发布
收藏
专利号: 2021103415105
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,包括以下步骤:步骤1、在Spark框架下的主控节点master中,通过Hadoop分布式文件系统HDFS读取红斑病电子病历的数据集合S,约简属性集B以及新增红斑病病历数据集S',红斑病病历信息的数据集合S和新增红斑病病历数据集S'定义如下:S={U,CUD,V,f},其中U={x1,x2,...,xN}表示红斑病病历信息中的患者数据,N表示患者数据的总数量;S'={U',CUD,V,f},其中U'={x1,x2,...,xM}表示新增红斑病病历信息中的患者数据,M表示新增病历中患者数据的总数量;C表示红斑病病历条件属性的非空有限集;D表示红斑病病历信息决策属性的非空有限集,且CI V=Ua∈CUDVa,Va是红斑病病历信息属性a的可能情况;f:U×(CUD)→V是一个信息函数,它为每个患者赋予一个信息值,即 x∈U,f(x,a)∈Va;

步骤2、根据新增红斑病病历信息决策属性D的不同信息值个数,将新增红斑病病历信息集合S'划分成n个红斑病病历信息子集S'={S'1,S'2,...,S'n},且满足 S'i={U'i,CUD,V,f}, 其中 表示子节点i上新增红斑病病历信息中的患者数据,i≠j,i=1,2,...,n,j=1,2,...,n,并将原红斑病病历数据集S和划分的新增病历信息子集S'i发送到相应的从节点slavei上;

步骤3、在从节点slavei中,分别计算原红斑病病历数据集对原约简集的划分原红斑病病历数据集对条件属性集的划分新增红斑病病历数据集对原约简集的划分 新增红斑病病历数据集对条件属性集的划分

步骤4、在从节点slavei中,分别计算红斑病病历总数据集对原约简集的划分红 斑 病 病历 总数 据 集 对条 件 属 性集 的 划 分步骤5、在从节点slavei中,分别计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度 是否等于原约简属性集相对于决策属性的知识粒度若相等,则原约简集不变,跳转至步骤7,否则,继续步骤6;

步骤6、在从节点slavei中,分别计算总红斑病病历数据集中条件属性集相对于决策属性的知识粒度 是否等于原约简属性集相对于决策属性的知识粒度若不等,则从候选属性集I中挑选属性重要度最大的属性amax添加进红斑病病历约简集,其中I=(C‑B),即条件属性集去除约简集后所剩集合,不断重复该操作直至相等,接着,对得到的红斑病病历约简集B进行进一步处理,将无关属性剔除,得到从节点slavei中的最终约简集;

步骤7、在从节点slavei中,将红斑病病历约简集发送到Spark主控节点master中,在Spark主控节点master中,对各从节点slavei发送来的红斑病病历约简集进行交集操作,取得交集属性,即为约简属性集。

2.根据权利要求1所述的红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,所述步骤5的具体步骤如下:

步骤5.1、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度 计算公式如下:

其中, 为新增红斑病病历数据集中条件属性C的知识粒度,其定义如下:为新增红斑病病

历数据集中全部属性CUD的知识粒度,其定义如下:步骤5.2、在从节点slavei中,计算新增红斑病病历数据集中条件属性集相对于决策属性的知识粒度 计算公式如下:

步骤5.3、在从节点slavei中,计算二者知识粒度,即 和 是否相等。

3.根据权利要求1或2所述的红斑病电子病历病变分类的增量属性约简Spark方法,其特征在于,所述步骤6的具体步骤如下:步骤6.1、在从节点slavei中,从候选属性集I中逐一挑选某个属性at,并计算其相对于总红斑病病历数据集的外部属性重要度 计算公式如下:步骤6.2、在从节点slavei中,挑选出外部属性重要度最大的属性amax加入红斑病病历约简集中;

步骤6.3、在从节点slavei中,继续比较条件属性集相对于决策属性的知识粒度与原约简属性集相对于决策属性的知识粒度 是否相等;

步骤6.4、在从节点slavei中,从约简集B中逐一挑选某个属性at,将其从B中剔除后计算约简集相对决策属性的知识粒度

步骤6.5、在从节点slavei中,再将其与条件属性集相对于决策属性的知识粒度相比较,如果相同,则将at从红斑病病历约简集B剔除;

步骤6.6、在从节点slavei中,对红斑病病历约简集B进行修改,最终得到的即是从节点slavei的红斑病病历约简集。