欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021105254837
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合主题信息的关键词生成方法,其特征在于,包括如下步骤:步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;

步骤2:采用word2vec对Xbow预训练得到词向量Xseq;

步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;

步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;

步骤5:将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;

步骤5.1:将文档‑主题分布θ输入单向门控循环单元网络GRU,用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj‑1),其中,zj为第j个解码器的输入,sj为解码器的第j个时刻的隐藏状态,sj‑1为解码器的前一个时刻的隐藏状态;

步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij;

步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj,步骤5.4:将上下文向量cj与解码器的第j个时刻的隐藏状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;

步骤5.5:输入主题敏感的上下文向量cj、解码器的第j个时刻的隐藏状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;

步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj;

步骤5.7:文档‑主题分布θ和编码M作为输入,生成关键词Y的概率;

步骤6:采用集束搜索,生成关键词的排名列表。

2.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤3具体过程为:

2

步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成

2 2

的,N(μ,σ)来表示各向同性的高斯分布,σ是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机;

T

步骤3.2:使用softmax函数,构建文档‑主题分布θ=softmax(W1Z),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。

3.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词,依次按照如下原理进行编码:步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络GRU分别对xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个标题词的向量;

ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;

步骤4.2:第二层为基于注意力机制的匹配层,用于聚合标题中的每个单词的相关信息,聚合操作 具体为:

T

si,j=(ui) W1vj

其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;

步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:其中,λ∈(0,1)是相应的超参数。

4.根据权利要求3所述的融合主题信息的关键词生成方法,其特征在于,所述注意力分布α'ij为:其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。

5.根据权利要求3所述的融合主题信息的关键词生成方法,其特征在于,所述步骤5.6中的概率分布pj为:

其中,若是生成的原文档中没有的单词,则pgen=0;

6.根据权利要求3所述的融合主题信息的关键词生成方法,其特征在于,所述关键词Y的概率具体为:

其中,Y<j=,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。