利索能及
我要发布
收藏
专利号: 2020111521544
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种医疗文献簇的主题确定方法,其特征在于,包括:对多篇医疗文献进行聚类,得到至少一个医疗文献簇;

确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;

确定所述每个医疗文献簇对应的候选短语集;

根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。

2.根据权利要求1所述的方法,其特征在于,所述确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献,包括:获取所述每个医疗文献簇中医疗文献之间的引用关系;

根据所述每个医疗文献簇中医疗文献之间的引用关系,确定所述每个医疗文献簇中各篇医疗文献的评分,所述各篇医疗文献的评分用于表征所述各篇医疗文献的重要性程度;

根据评分从大到小的顺序确定所述每个医疗文献簇中的目标医疗文献。

3.根据权利要求1或2所述的方法,其特征在于,所述确定所述每个医疗文献簇对应的候选短语集,包括:根据所述每个医疗文献簇中各篇医疗文献的标题和摘要,确定所述每个医疗文献簇中各篇医疗文献对应的短语;

将所述每个医疗文献簇中各篇医疗文献对应的短语组成第一短语集;

对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集。

4.根据权利要求3所述的方法,其特征在于,所述对所述第一短语集中的短语进行筛选,得到所述每个医疗文献簇对应的候选短语集,包括:将所述第一短语集中的缩写短语映射成全称,得到第二短语集;

将所述第二短语集中仅包含一个单词的短语删除,得到第三短语集;

确定所述第三短语集中语义相同的短语,并将所述第三短语集中语义相同的短语替换为标准化短语,得到第四候短语集;

将所述第四短语集作为所述每个医疗文献簇对应的候选短语集。

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题,包括:对所述每个医疗文献簇中的目标医疗文献的标题进行词嵌入,得到所述每个医疗文献簇对应的第一特征向量;

对所述候选短语集中的每个短语进行词嵌入,得到所述候选短语集中每个短语对应的第二特征向量;

对所述候选短语集中每个短语中的每个单词进行词嵌入,得到每个单词对应的第三特征向量;

根据所述每个单词对应的第三特征向量,确定所述候选短语集中每个短语对应的第四特征向量;

确定所述候选短语集中每个短语的词频-逆文本频率TF-IDF;

根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题。

6.根据权利要求5所述的方法,其特征在于,所述根据所述每个医疗文献簇对应的第一特征向量、所述候选短语集中每个短语对应的第二特征向量、所述候选短语集中每个短语对应的第四特征向量以及所述候选短语集中每个短语的TF-IDF,确定所述每个医疗文献簇对应的主题,包括:确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第二特征向量之间的第一相似度;

确定所述每个医疗文献簇对应的第一特征向量与所述候选短语集中每个短语对应的第四特征向量之间的第二相似度;

根据所述第一相似度和所述第二相似度以及所述TF-IDF值,确定所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度;

根据所述候选短语集中每个短语的第二特征向量,确定所述候选短语集中任意两个短语之间的第四相似度;

根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题。

7.根据权利要求6所述的方法,其特征在于,所述根据所述每个医疗文献簇与所述候选短语集中每个短语之间的第三相似度以及所述任意两个短语之间的第四相似度,确定所述每个医疗文献簇对应的主题,包括:从所述候选短语集中选取第三相似度最大的短语作为一个目标短语,并将所述目标短语从所述候选短语集中移动到目标短语集;

根据所述候选短语集的剩余短语中每个短语,与所述每个医疗文献簇之间的第三相似度以及与所述目标短语集中每个目标短语的第二相似度,确定所述剩余短语中每个短语对应的最大边界相关MMR分值;

将所述剩余短语中的MMR分值最大的短语从所述候选短语集中移动到所述目标短语集;

重复执行确定所述候选短语集剩余短语中每个短语对应的MMR分值以及将所MMR分值最大的短语移动到所述目标短语集的操作,直至所述目标短语集中的目标短语的数量达到预设数量;

将达到预设数量的目标短语集中的目标短语作为所述每个医疗文献簇的主题。

8.一种医疗文献簇的主题确定装置,其特征在于,包括:获取单元,用于获取多篇医疗文献;

处理单元,用于对所述多篇医疗文献进行聚类,得到至少一个医疗文献簇;

所述处理单元,还用于确定所述至少一个医疗文献簇中每个医疗文献簇中的目标医疗文献;

所述处理单元,还用于确定所述每个医疗文献簇对应的候选短语集;

所述处理单元,还用于根据所述每个医疗文献簇中的目标医疗文献以及所述每个医疗文献簇对应的候选短语集,确定所述每个医疗文献簇对应的主题。

9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7任一项方法中的步骤的指令。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。