买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于神经主题记忆的预训练文本摘要生成方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于神经主题记忆的预训练文本摘要生成方法

￥31200

专利号： 2019109991182

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，包括以下步骤：(1)根据完整的输入序列，使用BERT预训练的上下文建模能力，对序列进行编码，完成文本嵌入；

(2)将步骤(1)输出的序列表示，使用主题记忆网络编码潜在的主题表示；

(3)根据步骤(2)得到的主题表示、推理与步骤(1)编码完成得到的序列表示进行匹配，形成最终编码表示，再使用一个基于transformer的解码器来生成初步输出序列；

(4)将步骤(3)输出的序列中每一个单词进行掩码喂入BERT并结合输入序列，使用基于transformer和LSTM的解码器来预测每个掩码位置的细化单词，实现微调。

2.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(1)包括以下步骤：(11)进行文本词嵌入，将文档X编码成表示向量Hbert＝{h1,...hm}；

(12)基于内存和运行时间的考虑，选择BERTBASE建立预训练模型；

(13)词嵌入使用具有30，000词汇量的WordPiece嵌入。

3.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(2)包括以下步骤：(21)将Hbert喂入到主题记忆网络去推断隐含主题，用一个连续的隐变量z作为中间表示，其中K表示主题的个数；

(22)假设X有一个K维的主题概率分布θ，由高斯softmax产生，每个话题K下都有基于词2

汇表的词概率分布φK，X生成满足以下公式：z～N(μ,σ)，θ＝softmax(fθ(z))，词分布满足：wn～softmax(fφ(θ))，其中f*(·)是一个线性变换输入的神经感知器，由非线性变换激活，先验参数z,μ,σ由输入数据定义，公式为：μ＝fμ(fe(Hbert))

logσ＝fσ(fe(Hbert))；

(23)使用变分推理来近似给定所有情况下z上的后验分布，损失函数负变分下界定义为：LNTM＝DKL(q(z)||p(z|x))‑Εq(z)[p(x|z)]其中，q(z)服从标准正态分布N(0,1)，p(z|x)和p(x|z)分别表示编码和解码过程的概率。

4.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(3)包括以下步骤：(31)根据步骤(2)得到的主题表示作为主题特征，将生成的Wφ即topic‑word权重矩阵作为输入，经过RELU感知器激活的两个矩阵分别是原矩阵S,目标矩阵T，Hbert作为矩阵U,通过匹配S和U，计算第K个话题和索引向量中的第L个词嵌入的匹配度，计算公式如下：s s

PK,L＝sigmoid(W[Sk；UL]+b)s s

其中，S和U进行连接，W和b是需要学习的参数；

(32)定义一个集成记忆权重，公式如下：

其中γ是预定义系数；

(33)给目标矩阵T加权重ξ，公式如下：

RK＝ξKTK

其中，RK作为最终的主题表示，与词嵌入和位置嵌入连接作为词的上下文表示；

(34)将上下文表示喂入N层的Transformer的解码器去学习条件概率P(A|H)，Transformer里的每一层都有一个多头自注意子层和一个带有残差连接的线性仿射子层，并且加入标准化和残差连接，注意力得分公式如下：其中，de是输出维数，WQ,WK是需要学习的权重矩阵，hi为上一层输出；

(35)在t时刻，解码器根据先前的输出和编码器的中间表示来预测输出概率，公式如下：(36)每一个生成的序列通过‘[PAD]’截断，解码器的目标是最小化负样本似然函数如下：其中是真实摘要中第i个词；

(37)在生成初步序列摘要中，引入了复制机制处理超出词汇表的部分，核心公式如下：其中，为源文档上的注意概率分布，复制门gt∈[0,1]通过softmax产生，生成在源文档中或者词汇表中选择的概率。

5.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(4)包括以下步骤：(41)通过步骤(3)输出的序列，将每一个单词进行掩码喂入BERT并结合输入序列，通过N层的Transformer和LSTM去预测每个细化的摘要词；

(42)在i时刻，BERT的输出层作为LSTM的输入层，核心公式如下：Ci＝σ(Fi)ΘCi‑1+σ(Ii)Θtanh(Gi‑1)hi＝σ(Ot)Θtanh(LNc(Ct))其中，Fi、Ii、Oi分别是忘记门、输入门、输出门，Gi是隐藏向量，hi是输出向量，LNh,LNx,LNc是不同层的标准化操作，为真实摘要第i个词，bo为偏差项；

(43)两个解码器的参数相同，并且加入了ROUGE作为指导生成更流利的摘要，整个模型联合训练为了更好的捕捉特征。