买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度学习语言模型融合语义特征的关键词提取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度学习语言模型融合语义特征的关键词提取方法

￥17400

专利号： 2020112168757

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度学习语言模型融合语义特征的关键词提取方法，其特征在于，包括以下步骤：S1、给定一篇目标文档d，首先使用自然语言文本处理工具对文档d进行分词处理和词性标注，选择其中的名词或名词性短语作为候选关键词，得到一个候选关键词集合W＝{w1,w2,...,wn}；其中wn表示第n个关键词，同时将目标文档按句子进行拆分，得到句子集合D＝{s1,s2,...,sm}，其中sm表示第m个句子；

S2、将目标文档的句子集合输入预训练模型，得到句子集合中每个句子sj的向量表示Vsj；

S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi；

S4、针对每个候选关键词，计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分；

S5、根据每个候选词得分的高低降序排列，根据需要选取前N个作为目标文档的关键词；

所述步骤S1具体包括：

S11、对于目标文档，对其中的每一个词，使用自然语言文本处理工具对其进行词性标注，以键值对的形式('词语','词性')；

S12、遍历目标文档的键值对集合，仅保留其中的名词和名词性短语，构成目标文档的候选关键词集合；

所述步骤S2将目标文档的句子集合输入预训练模型，得到句子集合中每个句子sj的向量表示Vsj，具体包括：针对句子集合中的每个句子sj，将其输入到公开的预训练语言模型Sentence‑BERT中，使用公开的预训练模型加载公开的模型数据，得到句子的向量表示Vsj；

所述步骤S3利用预训练语言模型获取每个候选关键词wi的向量表示Vwi；

针对候选关键词集合中的每个候选关键词wi将其输入到公开的预训练语言模型Sentence‑BERT中，使用公开的预训练模型加载公开的模型数据，得到候选关键词的向量表示Vwi；

所述步骤S4的余弦距离计算公式为：