1.一种用于大数据电子病历约简的多粒度属性权重Spark方法,其特征在于:步骤如下:A.在Hadoop分布式文件系统中将大数据电子病历集划分成n个作业,表示为J1,J2,…,Jn,它包含i-1个电子病历条件属性作业J1,J2,…,Ji-1和n-i+1个电子病历决策属性作业Ji,Ji+1,…,Jn;
B.设计基于改进MapReduce任务协同结构的Spark模型,用于每个客户端用户从Hadoop分布式文件系统云服务器中提取电子病历诊断数据集;
C.在Spark模型上执行MapReduce操作,使电子病历条件属性作业J1,J2,…,Ji-1并行化处理,其中J1产生的条件属性作业序列为J2,…,Ji-1,J2产生的条件属性作业序列为J3,…,Ji,以此类推,Ji-1产生的条件属性作业序列为Ji,…,Jn-1;
D.将每个电子病历作业的条件属性和决策属性进行合并,构建属性对序列,分别表示为J1i,J2(i+1),…,J(i-2)(n-1),J(i-1)n,进一步提取电子病历作业中模糊的条件属性和不完备的决策属性;
E.在Hadoop分布式文件系统中构建多粒度属性权重Spark方法,将关联张量Τa转换为属性权重张量Τtr,并生成不同粒度i1,...,il,...,ik下属性权重k阶张量,获取属性权重张量Τw,用于大数据电子病历属性快速约简,取得大数据电子病历属性约简集局部解和全局最优解的有效平衡;
F.每个客户端用户执行Map作业任务,一致操作对<Keyi,Valuei>被存储在集成向量中,在所有Map作业任务执行完后,主结点采用一致操作对<Keyi,Valuei>执行Reduce任务,求得大数据电子病历属性约简最优特征集;
G.比较上述求出的属性约简精度RC与预先设定精度值λ关系,若满足RC≥λ,则输出大数据电子病历最优属性集。否则,继续执行上述C,D,E和F步骤,直至属性约简精度满足RC≥λ;
H.将大数据电子病历属性约简特征集R1,R2,…,Rn存储至Hadoop分布文件系统中,为相关疾病的临床诊断和治疗提供重要的智能诊断知识依据。
2.根据权利要求1所述一种用于大数据电子病历约简的多粒度属性权重Spark方法,其特征在于:所述步骤E中在Hadoop分布式文件系统中构建多粒度属性权重Spark方法,将关联张量Τa转换为属性权重张量Τtr,并生成不同粒度i1,...,il,...,ik下属性权重k阶张量,获取属性权重张量Τw,用于大数据电子病历属性快速约简,取得大数据电子病历属性约简集局部解和全局最优解的有效平衡,具体步骤如下:a.构建大数据电子病历系统为DIIS={U,AT,V,f},U为电子病历对象集合,AT为电子病历属性集,V为相关病历属性的值域,f是一个信息函数,用于指定U中每一个病历对象x的值域,A1,A2,...,Am∈AT为m个属性子集序列,w1,w2,…,wm分别对应m个电子病历属性子集序列下的权重值,其中m为非负整数;
b.设共享型协同最近邻域向量为k阶张量 其主要用来对应于不同电子病
历属性的k阶特征空间 通过计算每个电子病历属性所在特征空间中非零元素,获取关联张量Τa如下:将关联张量Τa中非负整数值的元素 表示为从第i1个电子病历属性到第ik个属性出现的次数;
c.定义每个电子病历特征空间中病历属性的重要度,利用高阶幂函数方法计算等级向量w1,w2,...,wk,其中wl,l=1,2,...,k,计算公式如下:wl=αΤtr×1wl…×l-1wl×l+1wl…×kwl+(1-α)μ,其中Τtr为电子病历属性权重张量,wl为特征向量对应于k阶电子病历属性权重张量Τtr的主导特征值,μ为一个随机向量,α为一个关联概率,其范围为0<α<1;
d.将关联张量Τa转换为电子病历属性权重张量Τtr,生成用于电子病历约简的多粒度属性权重k阶张量,在不同粒度i1,...,il,...,ik下属性权重张量计算方法如下:其中z是Τa所有阶的最大维数;
e.在关联概率0<α<1范围内,定义阈值ε的范围为ε∈[0.5,1],初始向量w0满足的条件为f.设随机向量 和j=0,执行如下循环操作:
(i)j=j+1;
(ii)wj=αΤtr×1wj-1…×l-1wj-1×l+1wj-1…×kwj-1+(1-α)μ;
(iii)直到满足条件||wj-wj-1||>ε;
g.将wj的一阶向量表示为 其排序向量为wj′,设wj=wj′,则构建大数据电子病历属性权重排序向量如下:h.计算电子病历属性权重张量 的乘积方程,其计算方法如下:
Τw=w1×w2×...wk;
该权重张量Τw能够平衡不同电子病历属性在同一特征规则提取中的相对贡献度,从而取得大数据电子病历属性约简集的局部解和全局最优解的有效平衡。