1.一种基于成员选择的簇加权聚类集成医学文本处理方法,其特征在于包括:构建聚类成员集合并输入至预先训练好的决策树模型中;
从决策树模型的输出的聚类成员集合筛选出标签为预先标签的聚类成员,并以筛选出的聚类成员,生成目标聚类集体;
根据簇层加权系数确定目标聚类集体的目标CA矩阵;
以目标CA矩阵为基础执行层次聚类算法,得到最终的聚类结果;
基于外部指标来对最终的聚类结果进行评价,确定评价值,基于评价值来判断最终的聚类结果的有效性;
在构建聚类成员集合之前,还对医学文本数据进行如下处理,以标注出聚类结果有干扰的数据,具体处理步骤如下:对聚类结果对应的反馈数据进行分析,确定标记节点;
当标记节点的数量大于等于预设的数量,将标记节点及相关数据输出、决策树模型的训练数据输出;接收专业人员的重新标记后,采用标记后的数据对决策树模型进行重新训练;
当标记节点的数量小于预设的数量时,基于各个标记节点,对医学文本数据进行筛选并标记;
在输出聚类结果时,标记的医学文本数据同步输出对应的标记信息;
其中,反馈数据的获取步骤如下:
在将患者的聚类结果发送至预设的医师终端后,接收的医师终端的批注信息;
和/或,
在将患者的聚类结果以及患者的治疗方案发送至患者终端后,接收的患者对于接收到的数据的存疑矫正指令时,将聚类结果、治疗方案以及存疑信息发送至预设的专业医师端后,接收的专业医师端的批注信息;
将批注信息、聚类结果、治疗方案和/或存疑信息作为反馈数据;
对于反馈数据的分析步骤如下:
对反馈数据进行筛选;
获取筛选后的反馈数据对应的聚类结果所对应的原始医学文本数据、分类时的特征数据;
将原始医学文本数据、分类特征数据与反馈数据相关联,形成待分析数据;
根据原始医学文本数据和分类特征数据,对待分析数据进行分组;
根据分组内各个待分析数据与其他的待分析数据的原始医学文本数据和分类特征数据的相似度总和,确定总和最大的待分析数据所对应的原始医学文本数据和分类特征数据构建的特征集作为标记节点的特征集;
基于预设的评分模型对待分析数据的组成以及内容进行评分,以评分值最大的待分析数据中的标注数据提取出的关键数据作为标记数据;
对待分析数据中的数据依据来源,进行截取;
依据各个数据依据来源对应的特征提取规则,对截取的数据进行特征提取;
依据各个数据依据来源对应的评分规则和各个截取数据对应的数据特征,确定各个截取数据的方面评分值;
依据各个数据依据来源,确定各个方面评分值对应的权重;
根据权重和各个方面评分值,计算出评分值;
多数情况下,医学文本数据的类别标签是已知的,此时采用外部指标来评价聚类有效性,其中F值是一个评价医学文本数据聚类质量的综合指标;F值越大,聚类质量越高,当聚类结果与医学文本数据的类别完全一致时,F值达到最大值,其值为1;NMI值是聚类结果有效性评价指标,量化聚类结果与真实医学文本数据的类别标签的匹配程度。
2.根据权利要求1所述的基于成员选择的簇加权聚类集成医学文本处理方法,其特征在于聚类成员集合的构建包括:采用K‑Means算法对医学文本数据进行聚类,生成多个聚类成员。
3.根据权利要求1所述的基于成员选择的簇加权聚类集成医学文本处理方法,其特征在于决策树模型的训练步骤如下:计算样本聚类成员集合中每个样本聚类成员的Davies‑Bouldin指数,并求出整体的平均值;
将每个样本聚类成员的Davies‑Bouldin指数分别与平均值进行比较,给Davies‑Bouldin指数低于平均值的样本聚类成员打上第一标签,给Davies‑Bouldin指数高于平均值的样本聚类成员打上第二标签;
基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型。
4.根据权利要求1所述的基于成员选择的簇加权聚类集成医学文本处理方法,其特征在于根据簇层加权系数确定目标聚类集体的目标CA矩阵,包括:构建关于目标聚类集体的CA矩阵;
基于簇层加权系数对CA矩阵进行加权处理,得到处理数据B;
从CA矩阵中捕获高置信度信息,得到HC矩阵;
根据处理数据B及HC矩阵确定目标聚类集体的目标CA矩阵。
5.根据权利要求4所述的基于成员选择的簇加权聚类集成医学文本处理方法,其特征在于构建关于目标聚类集体的CA矩阵,包括:其中,A为CA矩阵; 表示第 个聚类成员; 表示聚类集体中聚类成员的总数;
表示样本点 所在的簇; 表示样本点 所在的簇。
6.一种基于成员选择的簇加权聚类集成医学文本处理系统,其特征在于包括:构建单元、输入单元、筛选单元、矩阵确定单元和执行单元;
其中,构建单元构建聚类成员集合;输入单元将聚类成员集合输入至预先训练好的决策树模型中;筛选单元从决策树模型的输出的聚类成员集合筛选出标签为预先标签的聚类成员,并以筛选出的聚类成员,生成目标聚类集体;矩阵确定单元根据簇层加权系数确定目标聚类集体的目标CA矩阵;执行单元以目标CA矩阵为基础执行层次聚类算法,得到最终的聚类结果;
在构建聚类成员集合之前,还对医学文本数据进行如下处理,以标注出聚类结果有干扰的数据,具体处理步骤如下:对聚类结果对应的反馈数据进行分析,确定标记节点;
当标记节点的数量大于等于预设的数量,将标记节点及相关数据输出、决策树模型的训练数据输出;接收专业人员的重新标记后,采用标记后的数据对决策树模型进行重新训练;
当标记节点的数量小于预设的数量时,基于各个标记节点,对医学文本数据进行筛选并标记;
在输出聚类结果时,标记的医学文本数据同步输出对应的标记信息;
其中,反馈数据的获取步骤如下:
在将患者的聚类结果发送至预设的医师终端后,接收的医师终端的批注信息;
和/或,
在将患者的聚类结果以及患者的治疗方案发送至患者终端后,接收的患者对于接收到的数据的存疑矫正指令时,将聚类结果、治疗方案以及存疑信息发送至预设的专业医师端后,接收的专业医师端的批注信息;
将批注信息、聚类结果、治疗方案和/或存疑信息作为反馈数据;
对于反馈数据的分析步骤如下:
对反馈数据进行筛选;
获取筛选后的反馈数据对应的聚类结果所对应的原始医学文本数据、分类时的特征数据;
将原始医学文本数据、分类特征数据与反馈数据相关联,形成待分析数据;
根据原始医学文本数据和分类特征数据,对待分析数据进行分组;
根据分组内各个待分析数据与其他的待分析数据的原始医学文本数据和分类特征数据的相似度总和,确定总和最大的待分析数据所对应的原始医学文本数据和分类特征数据构建的特征集作为标记节点的特征集;
基于预设的评分模型对待分析数据的组成以及内容进行评分,以评分值最大的待分析数据中的标注数据提取出的关键数据作为标记数据;
对待分析数据中的数据依据来源,进行截取;
依据各个数据依据来源对应的特征提取规则,对截取的数据进行特征提取;
依据各个数据依据来源对应的评分规则和各个截取数据对应的数据特征,确定各个截取数据的方面评分值;
依据各个数据依据来源,确定各个方面评分值对应的权重;
根据权重和各个方面评分值,计算出评分值;
执行单元还基于外部指标来对最终的聚类结果进行评价,确定评价值,基于评价值来判断最终的聚类结果的有效性;
多数情况下,医学文本数据的类别标签是已知的,此时采用外部指标来评价聚类有效性,其中F值是一个评价医学文本数据聚类质量的综合指标;F值越大,聚类质量越高,当聚类结果与医学文本数据的类别完全一致时,F值达到最大值,其值为1;NMI值是聚类结果有效性评价指标,量化聚类结果与真实医学文本数据的类别标签的匹配程度。
7.根据权利要求6所述的基于成员选择的簇加权聚类集成医学文本处理系统,其特征在于构建单元采用K‑Means算法对医学文本数据进行聚类,生成多个聚类成员。
8.根据权利要求6所述的基于成员选择的簇加权聚类集成医学文本处理系统,其特征在于决策树模型的训练步骤如下:计算样本聚类成员集合中每个样本聚类成员的Davies‑Bouldin指数,并求出整体的平均值;
将每个样本聚类成员的Davies‑Bouldin指数分别与平均值进行比较,给Davies‑Bouldin指数低于平均值的样本聚类成员打上第一标签,给Davies‑Bouldin指数高于平均值的样本聚类成员打上第二标签;
基于带有标签的样本聚类成员作为训练集进行训练,得到训练好的决策树模型。
9.根据权利要求6所述的基于成员选择的簇加权聚类集成医学文本处理系统,其特征在于矩阵确定单元执行如下操作:构建关于目标聚类集体的CA矩阵;
基于簇层加权系数对CA矩阵进行加权处理,得到处理数据B;
从CA矩阵中捕获高置信度信息,得到HC矩阵;
根据处理数据B及HC矩阵确定目标聚类集体的目标CA矩阵。
10.根据权利要求9所述的基于成员选择的簇加权聚类集成医学文本处理系统,其特征在于矩阵确定单元构建关于目标聚类集体的CA矩阵,包括:其中,A为CA矩阵; 表示第 个聚类成员; 表示聚类集合中聚类成员的总数;
表示样本点 所在的簇; 表示样本点 所在的簇。