1.大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,包括如下步骤:S10读取肝脏电子病历的数据集合并划分成多个肝脏病历数据子集发送到相应从节点上;
S20对所述肝脏病历数据子集进行不一致处理,约简肝脏病历数据中不一致的数据,然后计算所述肝脏病历数据属性的等价类划分值;
S30计算所述肝脏病历数据子集关于决策分类的属性正域集合,然后根据肝脏病历数据子集中数据对象计算属性重要度;
S40计算出所述从节点中肝脏病历数据子集的属性重要度集合,并对同一肝脏病历数据属性子集的属性重要度集合进行聚合操作,得到肝脏病历数据的属性重要度集合;以及S50计算肝脏病历数据集的属性约简集合,并判断其是否满足约简要求。
2.根据权利要求1所述的大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,所述步骤S10包括如下步骤:S11在Spark框架主控节点master上,通过Hadoop分布式文件系统HDFS读取大规模肝脏电子病历的数据集合及其决策分类;其中肝脏电子病历的数据集合S定义如下:S={U,C∪D,V,f},其中U={x1,x2,…,xN}表示肝脏病历数据中的患者,N表示患者的个数;C表示肝脏病历数据属性的非空有限集;D表示肝脏病历数据决策属性的非空有限集,且V=∪a∈C∪DVa,Va是肝脏病历数据属性a的可能情况;f:U×(C∪D)→V是一个信息函数,它为每个患者赋予一个信息值,即 x∈U,f(x,a)∈Va; x∈U,f(x,a)∈Va;
S12根据所述肝脏病历数据决策属性D的不同信息值个数,将所述肝脏电子病历的数据集合S划分成n个肝脏病历数据子集,且满足 其中i≠j,i=1,
2,…,n,j=1,2,…,n;
S13在Spark框架下,通过Netty通信框架建立所述主控节点master和从节点slavei之间的通信,然后将划分的所述肝脏病历数据子集Si发送到相应的所述从节点slavei上。
3.根据权利要求2所述的大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,所述步骤S20包括如下步骤:S21在所述从节点slavei中,对肝脏病历数据子集Si进行一致性处理,从相同的肝脏病历数据子集属性中获取一个决策值最频繁的记录作为代表,约简其余决策值,生成新的肝脏病历数据子集S′i;
S22计算肝脏病历数据子集S′i属性的等价类划分EquivalentAttrClassi(C)=U′i/IND(C),其中,U′i是肝脏病历数据子集S′i中的患者对象,等价类关系IND(R)定义如下:S23计算肝脏病历数据子集S′i中每个病变属性Ck的等价类划分EquivalentAttrClassi(Ck)=U′i/IND(Ck),其中k=1,2,…,m,m为病变属性个数。
4.根据权利要求3所述的大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,所述步骤S30包括如下步骤:S31在所述从节点slavei中,计算肝脏病历数据子集S′i属性的正域集其中正域集POSC(X)定义如下:
S32在所述从节点slavei中,将 发送到主控节点master中,并对不同肝脏病历数据子集中正域集合 进行聚合操作,得到POSClassC(D);
S33计算肝脏病历数据子集S′i中每个病变属性Ck的正域集 并计算
属于正域对象的患者对象个数λi(Ck)。
5.根据权利要求4所述的大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,所述步骤S40包括如下步骤S41在所述从节点slavei中,计算肝脏病历m个病变属性中每个病变属性Ck的属性重要度Sigi(Ck),其中第i个所述从节点slavei中第k个属性的属性重要度Sigi(Ck)定义如下:其中,|·|表示集合的基数,λi(Ck)表示第i个所述从节点slavei中第k个属性属于正域对象的患者对象个数;
S42在所述从节点slavei中,将相应的肝脏病历数据子集S′i中属性重要度集合{Sig(C1),Sig(C2),…,Sig(Cm)}通过Spark中的Netty通信框架发送主控节点master中;
S43对属性重要度集合{Sigi(C1),Sigi(C2),…,Sigi(Cm)},i=1,2,…,n进行聚合操作,将不同肝脏病历数据子集中相同属性的属性重要度聚合到一个集合中,得到{Sig1(Ck),Sig2(Ck),…,Sign(Ck)},k=1,2,…,m;
S44计算聚合后的属性重要度集合中同一属性的属性重要度平均值,其计算公式如下:S45将S44中肝脏病历数据属性的属性重要度聚合成一个集合{Sig(C1),Sig(C2),…,Sig(Cm)},然后按照从大到小的顺序对其重新排序,得到新的属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)}。
6.根据权利要求5所述的大规模肝脏电子病历病变分类的属性并行约简Spark方法,其特征在于,所述步骤S50包括如下步骤:S51在主控节点master中,按照属性重要度集合{Sig′(C1),Sig′(C2),…,Sig′(Cm)}构建候选属性集合CandidateAttrClass,并将CandidateAttrClass中肝脏病历数据的属性依次添加到属性约简集合Red中;
S52在主控节点master中,计算肝脏病历数据中关于决策分类的属性约简集合的正域集合POSClassRed(D);
S53判断POSClassRed(D)是否与POSClassC(D)相等,如相等,则输出肝脏病历数据属性约简集合Red;不相等,则跳转至步骤S51中的操作继续执行直至POSClassRed(D)=POSClassC(D)。