利索能及
我要发布
收藏
专利号: 2021103415317
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法,其特征在于,包括以下步骤:S1:在主节点Master上,通过Hadoop分布式文件系统HDFS读取大规模不平衡糖尿病电TR TE TR子病历数据集,按照4:1比例划分训练数据集S 和测试数据集S ,将训练数据集S 发送到m子节点上,并将数据转换为一个四元组决策信息系统S=,决策信息系统S表示如下:S=,其中U={x1,x2,...,xM}表示糖尿病电子病历数据集中的患者对象集合,M表示糖尿病电子病历患者的个数;C={a1,a2,...,an}表示糖尿病电子病历患者病理特征的非空有限集合,n表示糖尿病电子病历患者病理特征的个数;D={d1,d2}表示糖尿病电子病历患者类别标签的非空有限集合,d1表示患者没有患有糖尿病,d2表示患者患有糖尿病,且 V=∪a∈C∪DVa,Va是糖尿病电子病历患者病理特征a的可能情况;f:U×C∪D→V是一个信息函数,它为每个糖尿病电子病历患者病理特征赋予一个信息值,即x∈U,f(x,a)∈Va;

S2:对糖尿病训练集进行不平衡预处理:在子节点Slaveri上,i=1,2,...,m,从训练数TR TR TR据集S <U ,C∪D,V ,f>的电子病历患者集合 中分别筛选出

患有糖尿病患者集合 和未患有糖尿病患者集合 且满足

和 其中P+N=M1,P>N,N表示患有糖尿病患者的个数,P表示未患

有糖尿病患者的个数,然后利用Spark并行欠采样从 上随机采样出N个未患有糖尿病患者集合 将 和 合并形成新的数据子集 其中 在不同的子节点上形成不同的训练数据子集;

S3:在子节点Slaveri上,构建基于邻域决策错误率的Spark并行病理特征约简器得到糖尿病电子病历数据在不同子节点下的病理特征约简集合{R1,R2,...,Ri,...,Rm};

S4:邻域决策错误率的Spark并行病理特征约简器构建实现方法:在子节点Slaveri上,首先计算糖尿病患者对象的邻域空间,其次根据糖尿病患者对象的邻域空间计算关于糖尿病类别标签下近似集,再次根据类别概率预测糖尿病患者对象的类别标签,并计算邻域错误率,最后通过邻域错误率构建糖尿病患者对象的病理特征重要度集,并对糖尿病患者病理特征集合进行病理特征约简得到子节点Slaveri上的病理特征约简子集Ri;

S5:将糖尿病测试数据集广播到m个子节点上,并根据病理特征约简集合{R1,R2,...,Rm}更新训练数据子集和测试数据集中的病理特征集合C,得到新的训练数据子集集合和测试数据子集集合 其中S6:在子节点Slaveri上,通过D‑S证据理论驱动的邻域证据Spark并行分类器对测试子集 中的待测糖尿病电子病历患者 进行预测类别标签;

S7:证据理论驱动的邻域粗糙分类器构建实现方法:在子节点Slaveri上,首先计算待测糖尿病电子病历患者的邻域空间中关于训练数据集中糖尿病电子病历患者及其决策类划分的证据信息,其次将不同类别标签的证据信息进行聚合,再次计算待测糖尿病电子病历患者对某一决策类划分的信任函数和似然函数,最后根据最大信任函数值预测子节点Slaveri上的待测糖尿病电子病历患者的类别标签ωi;

S8:将m个子节点上的预测类别标签发送到主节点上,根据多数投票机制,通过Reduce操作聚合m个预测类别标签中概率最大的类别标签作为待测糖尿病电子病历患者的最终预测类别标签。

2.根据权利要求1所述的大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法,其特征在于,所述步骤S4的具体步骤如下:步骤S4.1:在子节点Slaveri上,计算糖尿病电子病历患者根据类别标签划分的决策类和对应的糖尿病类别标签D={d1,d2},d1表示患者没有患有糖尿病,d2表示患者患有糖尿病,决策类划分计算公式如下:其中,[x]D表示等价类,

步骤S4.2:在子节点Slaveri上,计算糖尿病电子病历患者xs, 基于细胞病理特征集C的邻域空间δC(xs),其计算公式如下所示:其中,δ为距离阈值,其值设为0.95,ΔC为基于细胞病理特征子空间C上糖尿病电子病历患者xs和xr之间的距离函数,其计算公式如下:其中, 是相对于属性ak的糖尿病电子病历患者xs和xr之间的空间距离,其计算公式如下:步骤S4.3:在子节点Slaveri上,计算糖尿病电子病历患者xs在类别标签dt,t=1,2下的决策类别概率为P(dt|δC(xs)),若P(dw|δC(xs))=maxtP(dt|δC(xs)),则糖尿病电子病历患者xs的类别标签记为dw,表示为ND(xs)=dw,当糖尿病电子病历患者xs的预测类别标签ND(xs)与真实样本类别标签d(xs)相同时,可得到ND(xs)=d(xs)=dw;

步骤S4.4:在子节点Slaveri上,计算糖尿病电子病历患者xs误分类的损失函数,其定义如下:步骤S4.5:在子节点Slaveri上,计算糖尿病电子病历患者xs邻域错误率,其计算公式如下:步骤S4.6:在子节点Slaveri上,计算糖尿病细胞病理特征集中每个病理特征ak,k=1,

2,...,n相对于约简病理特征集Ri的重要度 按照重要度从

大到小的顺序得到候选病理特征集{a1',a'2,...,a'n};

步骤S4.7:在子节点Slaveri上,将候选病理特征集中最大重要度对应的病理特征al',l=1,2,…,n加入约简病理特征子集Ri,并将病理特征al'从候选病理特征集中移除,直到输出子节点Slaveri上的约简病理特征子集Ri。

3.根据权利要求1或2所述的大规模不平衡糖尿病电子病历并行分类邻域证据Spark方法,其特征在于,所述步骤S7的具体步骤如下:步骤S7.1:在子节点Slaveri上,计算测试数据子集 中待测糖尿病电子病历患者yb,b=1,2,...,M2,训练数据集 中糖尿病电子病历患者xs,s=1,2,...,2N之间的距离步骤S7.2:在子节点Slaveri上,根据距离 计算待测糖尿病电子病历患者yb的邻域步骤S7.3:在子节点Slaveri上,计算待测糖尿病电子病历患者yb与糖尿病电子病历患者xs之间的证据信息,如果糖尿病电子病历患者xs的类别标签为dt和决策类划分为 那么可作为一个独立的支持对待测糖尿病电子病历患者yb进行分类的证据,其所包含的证据信息定义如下:b,s

M (πi)=1‑α    (10)

其中,α0为权重系数,其取值为0.90,γt>0,Δ是距离函数,计算方式见公式(3);

步骤S7.4:在子节点Slaveri上,计算待测糖尿病电子病历患者yb的邻域 中类别标签为dt的样本集 该样本集 对yb的证据支持可表示为 即:步骤S7.5:在子节点Slaveri上,计算待测糖尿病电子病历患者yb在不同类别标签下的证据信息 并对证据信息进行聚合操作,则可得到yb邻域 中所有对象提供的证据支持 其可具体表示为:其中,K为归一化因子,其表达式如下所示:

步骤S7.6:在子节点Slaveri上,计算待测糖尿病电子病历患者yb对决策类划分中某一类 的信任函数 和似然函数 具体定义如下:b

步骤S7.7:在子节点Slaveri上,根据待测糖尿病电子病历患者yb的信任函数Bel可得到yb的预测类别标签ωi,其定义如下: