1.一种基于偏多标记学习的患者筛选标记方法,其特征在于,包括:获取患者的病理样本数据,将病理样本数据输入到基于偏多标记学习的医疗文本语义信息大数据预测模型中,预测患者的患病类型和患病概率,根据患者的患病类型和患病概率对患者进行标记;
采用基于偏多标记学习的医疗文本语义信息大数据预测模型对病理样本数据进行处理的过程为:S1:对病理样本数据进行预处理,得到病理样本数据对应的候选标记集;预处理包括对病理样本数据进行数据缺失处理和数据类型转换;
对病理样本数据进行数据缺失处理包括:根据患者病理样本数据中无缺失值的n个样本点构建一条光滑的曲线并使曲线通过所有的样本点;将含有缺失值的样本所对应的属性点x带入曲线,获得样本中所缺失数据的近似值;将缺失数据的近似值带入到样本数据中,扩充缺失的数据;曲线表示为:其中,yi表示根据第i个样本点确定的曲线函数,xi表示第n个属性点x的坐标,xj表示第n‑1个属性点x的坐标;
对病理样本数据进行数据类型转换包括:将病理样本数据转换为对应候选标记集合的nq维二值向量B ,转换公式为:
其中,m表示维数,n表示第n个样本, 表示第n个样本的维数来自于第m维,q表示最大维数,λm表示维数m所表示的数据集合,S表示全部数据集合;
S2:提取候选标记集的类别不平衡医疗文本语义信息,根据类别不平衡医疗文本语义信息构建偏多标记候选数据集;构建偏多标记候选数据集的过程包括:S21:根据k近邻加权聚合算法求解患者的病理样本所对应的医疗文本语义信息中每个检查项目的置信度向量;
S22:根据置信度向量对候选标记集进行消歧操作,得到多类消歧数据集;
S23:对多类消歧数据集进行类别平衡处理,得到偏多标记数据集,具体过程包括:S231:对多类消歧数据集中所有类别集合的大小进行阈值约束;
S232:对进行阈值约束后的多类消歧数据集中所有类别集合设定类编码,根据类编码结合扰动过采样技术对进行阈值约束后的所有类别集合进行采样,采样公式为:其中, 表示生成的候选标记集合,λm表示维数m所表示的数据结合, 表示维数m所表示的类别集合,m表示维数,q表示最大维数,表示二值向量, 表示第n+1个样本的二值向量, 表示第n‑1个样本的二值向量,xr表示第n+1个样本的候选标记集合,xi表示第n‑1个样本的候选标记集合,ω表示特征空间新示例的生成维度;
S233:根据采样操作扩充偏多标记数据集,扩充公式为:
其中,表示通过采样操作所扩充的偏多标记数据集, 表示样本点;
S3:对偏多标记候选数据集进行网格聚类操作,得到每个检查项目对应的簇;对偏多标记候选数据集进行网格聚类操作包括:将偏多标记数据集中每一个检查项目映射到网格单元中;依次扫描每个检查项目的对应的网格单元,将每个检查项目对应的每个网格单元中的数据对象个数记为Q;设定的密度阈值,将数据对象个数Q与设定的密度阈值进行比较,将数据对象个数高于密度阈值的网格单元作为高密度网格单元,低于密度阈值的网格单元作为低密度网格单元;删除低密度网格单元中的数据对象,找出高密度网格单元数据对象和与之相邻的高密度网格单元数据对象,并分别计算两者的相似度和相异度,当相似度大于相似度阈值时则将两者作为一个簇,并对簇值加一,当簇值达到簇阈值时输出簇;
S4:采用改进EM算法计算每个簇的类后验概率,具体包括:
根据香农熵编码准则,得到子高斯的函数值表达式;
设定每个簇的子高斯数存在范围,采用子高斯消除策略消除对混合分布影响最小的子高斯,得到需要的子高斯及其最优分布;根据子高斯的函数值表达式对最优分布的子高斯进行参数估计,得到子高斯参数;子高斯参数的公式为:其中,ω表示权重,μ表示均值向量,μi表示第i个子高斯的均值向量,∑表示协方差矩阵,T表示维度矢量,i表示子高斯个数,xt表示子高斯数据集合,λ表示模型参数集合;
根据每个簇的所有子高斯及其参数依次计算每个簇中每个子高斯的累积对数似然函数值,将累积对数似然函数值转换为类后验概率;计算累积对数似然函数值的公式为:其中,x(t)表示全部数据集合,ξ表示子高斯i的先验概率,e表示子高斯个数,φ表示子高斯i的参数;
根据当前类后验概率的子高斯参数与上一次类后验概率的子高斯参数更新类后验概率,得到每个簇的类后验概率;
S5:将所有类后验概率输入到朴素贝叶斯网格,获得融合后的最终类后验概率,最终类后验概率为该患者患此病的概率;
S6:计算所有类后验概率的联合概率,根据联合概率计算类节点后验概率;根据后验概率最大准则对类节点后验概率进行分类,得到预测的患者患病类别;所有最终类后验概率的联合概率为:其中,xr表示患者患r病的概率,a表示患者患医生所述患病类型概率,c表示患者的患病种类,r表示该患者可能的患病种类。