1.一种基于散列桶邻域的慢病分类标记方法,其特征在于,包括:获取待测用户的医学数据,并将获取的医学数据转换为患者决策信息表,将患者决策信息表中数据输入到基于散列桶邻域的慢病分类模型中,得到待测用户的各慢病患病的概率,若该待测用户中至少两种慢病的患病概率均为最大且相同,则选择邻域中慢病距离度最大的用户进行标记;
采用基于散列桶邻域的慢病分类模型对待测用户的医学信息数据进行处理并标记患者所患慢病的过程包括:S1:将待测用户的个人医学数据转化为慢病决策信息表,对慢病决策信息表中的医学条件属性值进行归一化处理,得到医学条件属性集;将获取的医学数据转换为患者决策信息表的过程包括:对医学数据中的患者的医学条件属性值进行归一化处理,得到患者决策信息表,归一化处理的公式为:其中,xij表示第i个患者样本的第j个医学属性的值,max(xj)表示第j个医学属性的最大值,min(xj)表示第j个医学属性的最小值;
S2:根据医学条件属性集确定特殊患者样本和散列函数,采用散列函数将患者空间中的患者样本依次划分到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列;具体为:步骤1:提取医学条件属性集中每个医学条件属性的最小值,根据最小值确定特殊患者样本;
步骤2:计算患者样本和特殊样本的欧式距离;根据患者样本和特殊样本的欧式距离构建邻域诊断桶序列;
步骤3:构建散列函数,采用散列函数将患者样本映射到邻域诊断桶序列中,得到基于邻域诊断慢病的散列桶序列;
S3:根据基于邻域诊断慢病的散列桶序列确定待测用户的诊断邻域;
S4:根据待测用户的诊断邻域采用多数投票原则计算每个待测用户被预测患各种慢病的概率;计算得到待测用户邻域中概率值最大的慢病标签,若待测用户邻域中概率最大的慢病标签唯一,则将该患者存储到该慢病类别的集合中;若待测用户邻域中概率最大的患病标签不唯一,则执行步骤S5;
S5:根据距离投票规则分类标记待诊患者所患慢病,针对待诊患者邻域中多个满足多数投票原则的最大概率慢病标签,计算得到其中距离度最大的慢病标签,根据该慢病标签对患者进行分类,将该患者存储到该慢病类别的集合中。
2.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,获取待测用户的个人医学条件属性值包括:收缩压、胆固醇、维生素D、血红蛋白浓度、淋巴细胞百分比、C反应蛋白以及尿素。
3.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算患者样本和特殊样本的欧式距离公式为:其中,xi表示第i个患者样本,xj表示第j个患者样本,m表示患者样本的数量,xik表示第i个患者样本在第k个医学属性下的医学属性值。
4.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,构建的邻域诊断桶为:其中,xi表示第i个患者样本,U表示患者样本集,∧表示且运算,Δ(x0,xi)表示患者样本x0到患者样本xi的欧式距离,wid表示散列桶宽度,w表示散列键, 表示向上取整。
5.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,确定待测用户的诊断邻域包括:根据基于邻域诊断慢病的散列桶序列确定自适应邻域诊断半径,根据自适应邻域诊断半径确定待测用户的诊断邻域。
6.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算每个待测用户被预测患各种慢病的概率公式为:其中,Dk表示患者邻域U中第k种慢病的患者集合,δ(x)表示待诊患者的诊断邻域,∩表示求交运算。
7.根据权利要求1所述的一种基于散列桶邻域的慢病分类标记方法,其特征在于,计算距离度最大的慢病标签的公式为:其中, 表示慢病标签dk的距离度,dk表示诊断邻域δ(x)中满足多数投票规则的慢病决策标签,xi表示第i个患者样本, 表示患者样本xi的距离度,dj表示慢病标签,表示取最大值对应的慢病标签dk。