1.一种基于深度学习语言模型融合语义特征的关键词提取方法,其特征在于,包括以下步骤:S1、给定一篇目标文档d,首先使用自然语言文本处理工具对文档d进行分词处理和词性标注,选择其中的名词或名词性短语作为候选关键词,得到一个候选关键词集合W={w1,w2,...,wn};其中wn表示第n个关键词,同时将目标文档按句子进行拆分,得到句子集合D={s1,s2,...,sm},其中sm表示第m个句子;
S2、将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj;
S3、利用预训练语言模型获取每个候选关键词wi的向量表示Vwi;
S4、针对每个候选关键词,计算候选关键词与目标文档的句子集合中每个句子的余弦距离的均值作为候选关键词的最终得分;
S5、根据每个候选词得分的高低降序排列,根据需要选取前N个作为目标文档的关键词;
所述步骤S1具体包括:
S11、对于目标文档,对其中的每一个词,使用自然语言文本处理工具对其进行词性标注,以键值对的形式('词语','词性');
S12、遍历目标文档的键值对集合,仅保留其中的名词和名词性短语,构成目标文档的候选关键词集合;
所述步骤S2将目标文档的句子集合输入预训练模型,得到句子集合中每个句子sj的向量表示Vsj,具体包括:针对句子集合中的每个句子sj,将其输入到公开的预训练语言模型Sentence‑BERT中,使用公开的预训练模型加载公开的模型数据,得到句子的向量表示Vsj;
所述步骤S3利用预训练语言模型获取每个候选关键词wi的向量表示Vwi;
针对候选关键词集合中的每个候选关键词wi将其输入到公开的预训练语言模型Sentence‑BERT中,使用公开的预训练模型加载公开的模型数据,得到候选关键词的向量表示Vwi;
所述步骤S4的余弦距离计算公式为: