1.一种基于医疗单据的可视化报表的方法,其特征在于,包括如下步骤:
1)采集医疗单据的数据;
2)将医疗单据的数据分为疾病数据和患者数据;
3)对疾病类别数据进行分析,采用聚类算法,然后用疾病类别分布图谱的方式来呈现分析的结果;
4)对疾病人群的数据进行分析,采用人群属性标签算法和关联规则挖掘算法,然后用疾病人群的网络关系图的方法来呈现分析的结果;
其中,所述疾病类别数据分析使用ICD10医疗目录,作为树状结构目录,然后将具体疾病在目录树上做聚类算法;
所述对疾病人群的数据进行分析是用疾病和患者两方面的数据做关联规则挖掘,其是采用Apriori算法做关联规则挖掘;
所述疾病类别数据分析的方法具体为:根据医疗单据上的处方和诊断证明中的疾病名称来获得疾病数据的来源;使用ICD10医疗目录,作为树状结构目录,然后将具体疾病目录树上做聚类算法,具体聚类算法过程为:A)以关系型数据方式整理出ICD10目录,分DS1,DS2,DS3三个级别;
B)以相似度查找的方法,同时加以纠错的方式定位到具体的疾病记录DS3,查找的具体方法,是遍历单据上疾病,计算它和DS3级别疾病的编辑距离;
C)对DS3,记录病患的次数;
D)在DS2级别上,汇总DS3级别的所有次数;在DS1级别上汇总DS2的所有数据;
E)最终,按树状结构汇总出疾病的发病次数和人数。
2.如权利要求1所述的方法,其特征在于,第B)中的具体算法如下:B1)str1或str2的长度为0返回另一个字符串的长度:B2)初始化(n+1)*(m+1)的矩阵d,并让第一行和列的值从0开始增长;扫描n*m级的两字符串,如果:str1[i]==str2[j],用temp记录它为0;否则temp记为1;然后在矩阵d[i,j]赋于d[i‑1,j]+1、d[i,j‑1]+1、d[i‑1,j‑1]+temp三者的最小值;
B3)扫描完后,返回矩阵的最后一个值d[n][m]即是它们的距离;
B4)和所有DS3级别比较距离,距离为0或低于一个阈值的数据,命中,可以认为单据上的疾病就是此DS3的疾病。
3.如权利要求1所述的方法,其特征在于,所述疾病人群的数据进行分析的方法如下:数据来源包括:一是利用所述疾病数据分析方法得到的每例疾病的树状结构,二是患者数据的人群属性标签,来自医疗单据中的患者的年龄,性别,医保卡号,然后按年龄和性别,组成不同的用户群组;
用上述疾病和患者这两方面的数据采用Apriori算法做关联规则。
4.如权利要求1所述的方法,其特征在于,所述疾病类别分布图谱的方式来呈现分析的结果是用矩形树图的方式,呈现出各类疾病的发病数量,区域面积越大的,代表发病多。
5.如权利要求1所述的方法,其特征在于,所述疾病类别分布图谱的具体做图方法为:首先,按照第三级疾病的发病数,计算出发病的总比例,然后根据总比例数确定出第三级每种疾病在一个矩形上的面积;疾病数据按照ICD10的目录分为三级,第一级疾病,用不同颜色的区域呈现;第二级和第三级疾病,都在第一级区域中用细分的区域展现;点击任何第一级区域,会聚焦到这个级别专门展现其信息。
6.如权利要求1所述的方法,其特征在于,制作所述疾病人群的网络关系图的具体方法如下:
首先,对每一例疾病,计算出疾病类别的DS1,计算出患者的人群属性的组别编码PG,构建一个一维数组放入[DS1,PG];
然后,扫描所有疾病记录,把第一步的一维数组的输入填充到一个新数组,构建成一个高维数组;
再次,对高维数组进行关联规则挖掘计算,最终会得到DS1,PG不同组合数据的频度权重值FP;利用分析的高频关系,取最高频的80组结果,填充为Gexf格式数据;将DS3,PG作为Gexf的Node填入,把其对应的FP值作为Edge填入;
最后,用Gexf数据做关系图的渲染;其中疾病类别、人群属性分别用不同颜色表示;其中,人群属性,按照年龄段和性别来分组;疾病类别,按ICD10的一级目录来分类,计算出一个人群组别和疾病类别的关系的权重后,在链上会显示出权重值FP。
7.如权利要求1至6任一项所述的方法的基于医疗单据的大数据分析的可视化报表的系统,其特征在于,主要包括下述模块:
1)数据采集和分类模块:用于采集医疗单据的数据,并将医疗单据的数据分为疾病数据和患者数据;
2)数据分析模块:分别包括疾病类别数据分析模块和疾病人群的数据分析模块;
3)可视化报表模块:分别以疾病类别分布图谱和疾病人群的网络关系图呈现分析的结果。