利索能及
我要发布
收藏
专利号: 2020107445567
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文献主题词聚合方法,其特征在于,所述方法包括:

获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;

采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;

基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合,包括:根据所述名词短语,建立基于所述名词短语的语义相似度;基于所述引文信息,构建文献所对应的文献共被引网络;根据所述文献共被引网络,计算所述文献所对应的文献共被引相似度;根据所述文献共被引相似度,构建所述名词短语所对应的短语共被引相似度网络;根据所述短语共被引相似度网络,得到所述名词短语所对应的短语共被引相似度;根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合;

从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

2.根据权利要求1所述文献主题词聚合方法,其特征在于,所述根据所述名词短语,建立基于所述名词短语的语义相似度的步骤包括:将所述名词短语输入至预设Biobert模型,以得到所述名词短语所对应的语义向量;

计算所述语义向量之间的余弦相似度,以得到所述名词短语所对应的语义相似度。

3.根据权利要求1或者2所述文献主题词聚合方法,其特征在于,所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤之前,还包括:基于所述短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到若干个短语社团;

所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤包括:根据所述名词短语所对应的短语共被引相似度,对所述短语社团进行聚类,以得到第一聚类;

根据所述短语所对应的所述语义相似度,对所述短语社团进行聚类,以得到第二聚类;

判断每两个所述名词短语是否均包含于所述第一聚类和所述第二聚类;

若每两个所述名词短语均包含于所述第一聚类和所述第二聚类,判定该两个所述名词短语为近义词,从而得到近义词短语;

将所有所述近义词短语组合成集合以得到近义词集合。

4.根据权利要求1所述文献主题词聚合方法,其特征在于,所述从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词的步骤包括:根据预设TF‑IDF算法,从所述近义词集合中筛选出TF‑IDF值最高的名词短语作为目标名词短语;

将所述目标名词短语作为文献的主题词。

5.一种文献主题词聚合装置,其特征在于,包括:

获取单元,用于获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;

提取单元,用于采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;

聚类单元,用于基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合,其中,所述聚类单元包括:建立子单元,用于根据所述名词短语,建立基于所述名词短语的语义相似度;第一构建子单元,用于基于所述引文信息,构建文献所对应的文献共被引网络;第一计算子单元,用于根据所述文献共被引网络,计算所述文献所对应的文献共被引相似度;第二构建子单元,用于根据所述文献共被引相似度,构建所述名词短语所对应的短语共被引相似度网络;获取子单元,用于根据所述短语共被引相似度网络,得到所述名词短语所对应的短语共被引相似度;聚类子单元,用于根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合;

筛选单元,用于从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

6.根据权利要求5所述文献主题词聚合装置,其特征在于,所述建立子单元包括:输入子单元,用于将所述名词短语输入至预设Biobert模型,以得到所述名词短语所对应的语义向量;

第二计算子单元,用于计算所述语义向量之间的余弦相似度,以得到所述名词短语所对应的语义相似度。

7.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1‑4任一项所述方法的步骤。

8.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1‑4中任一项所述方法的步骤。