欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021104414665
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,包括以下步骤:

101、计算机对文本语料库进行预处理,包括对CNN/DailyMail数据集进行分词,建立词典文件并且将数据集划分为训练集、测试集、验证集。读取训练数据、测试数据集、验证数据集到计算机中,将每个数据集中的样本划分为文本信息和摘要信息,建立停顿词和特殊词表,利用词典将文本信息和摘要转换为onehot向量和建立未登录词表;

102、基于序列到序列的多头自注意力机制、覆盖机制和指针网络,建立神经网络模型,将101中得到的onehot向量输入,得到整个模型的损失函数值;

103、根据Adam算法,进行梯度下降,更新神经网络模型的参数,降低损失函数值;

104、选取在验证集中损失函数最小的模型,利用束搜索,根据输入文本,生成相应的摘要内容。

2.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤101对语料库进行预处理操作,操作如下:

1)将CNN/DailyMail数据集,使用了stanford‑corenlp进行分词,并且建立词典文件,并且将数据集划分3部分,分别为train,val,test;

2)将上面的三部分数据集都做如下相同的操作:对数据集每一个样本根据@highlight来将其划分文本与摘要;将文本信息利用词典转换为onehot向量,建立未登录词表以及特殊词表['','','',''],若某个词未出现词典中,则将其加入到未登录词表中,未登录词表是在每一个样本的文本输入时建立的。

3.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤102建立神经网络学习模型操作,主要操作如下:

1)基于序列到序列的自注意力机制、覆盖机制和指针网络建立神经网络学习模型,包括了建立编码层,解码层,多头自注意力机制,软注意力机制,生成门控制值,合成门控制值,训练层和预测模型;

2)在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值;

3)将编码层得到的值,进行降维,然后分别输入到多头自注意力机制中和解码层中;

4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制;

5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;

6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布;

7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值。。

4.根据权利要求3所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤2)中,在编码层中,将输入的onehot向量进行字嵌入,对输入的信息进行计算其mask值,然后将经过字嵌入的输入信息输入到LSTM中,得到解码层和计算Attention所需要的Output和h值;由于每次需要输入多个样本的文本,而每一个文本的长度又不完全相同,在编码层的LSTM的长度是固定,因此我们需要将样本文本固定为一个相同的长度,比固定长度长的文本截断,比固定长度短的文本,需要补齐,补Pad即为字典中的

0。但是这样引入的0会对后面的损失函数计算时候使用的softmax造成误差,因为我们需要计算其mask(mask的长度和文本的固定长度相同),若在此位置有文本,在mask中用1表示,若此位置是0即是补的长度Pad,在mask中为0,我们使用文本补长后的文本乘以mask的值即可得到真正文本信息。Output,h=LSTM(X)X表示输入的文本。

5.根据权利要求4所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤4)将多头自注意力机制计算的值输入解码层中,在解码层中利用编程层的信息和解码层的输入计算软注意力机制;计算机软注意机制的公式如下:t t

a=softma x(e)

输入的文本信息,经过双向的LSTM后可得到编码的隐藏状态hi。在解码端,解码器是一个单向的LSTM,在时间步t时得到解码状态为st,利用hi和st计算解码时间步t在原文本中第t

i个词的注意力权重。其中V、Wh、Ws和battn是可学习的参数,a是当前时刻的注意力分布。

6.根据权利要求5所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制;两个门控公式如下:

*

Pgate=σ(WyY+Wh*h+WesSes+WdsSt+B)*

σ是sigmod函数。Y是来自多头自注意力机制的上下文本向量,h是来自软注意力机制的上下文本向量,Ses是编码层的双向LSTM输出的隐层状态值,St是解码层当前时间步t的解码的隐层状态值,xt是解码器的输入。其他参数是可学习的参数。

7.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和,并且将未登录词表和生成词的概率进行融合,形成新的生成词概率分布,数学公式如下:

PSelf‑vocab=softmax(V′(Y)+b)Pwvocab=Pgate*Pvocab+(1‑Pgate)*PSelf‑vocabPSelf‑vocab是多头自注意力机制计算出的概率分布,Pvocab是软注意力机制计算出的概率分布。利用Pgate将两种概率融合。再使用pgen来融合指针网络, 表示原文本中的词。

8.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤7)根据解码层的输入,去查找对应词在概率分布的值,在利用交叉熵去求其损失值,将所有的损害值求和后平均,得到平均损失值,数学公式如下:Pw为生成标签中的当前词,在概率分布中的值。

9.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤103根据Adam算法,进行梯度下降,更新神经网络模型的参数,具体包括:

1)使用了Adam优化器,利用梯度下降,更新模型中已有的参数。

2)为了解决过拟合问题,定期使用梯度剪裁方式。

10.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法,其特征在于,所述步骤104束搜索操作,具体如下:

1)根据上面训练好的模型,从中挑选验证集中损失值较)的模型。将测试集中的数据输入到已经训练好的模型中,生成需要的摘要,引入束搜索,每次选取前K个最高的概率值,来预测下一个词,然后在从这K*K个中选取得分最高的K个作为下一路扩展的K个,直到最后,将得到选取整体概率值最高的生成结果;

2)利用Rouge这个包,来对生成的摘要和标记进行对比。来评生成的摘要的效果。