利索能及
我要发布
收藏
专利号: 2024102819321
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于分句编码的抽取式文本摘要生成方法,其特征在于,包括如下步骤:步骤1、获取训练数据集,采用分句算法和摘要转换算法对训练数据集进行处理;

步骤2、基于BERT模型对正文句子集合进行编码,获得句向量和文章表征;

所述步骤2中,BERT模型包括依次连接的嵌入层、Transformer层、平均池化层;BERT模型进行编码的具体过程为:步骤2.1、将第i个正文的句子集合Xi输入BERT模型,BERT模型的嵌入层将Xi转换为三维输入向量,三维输入向量的维度是[Si,Li,H];Si是第i个正文句子;Li是一篇文章中第i个正文句子的长度最大值;H是隐藏层维度;三维输入向量Input如下:Input=Wordemb+Segmentemb+Positionemb;

其中,Wordemb是字符嵌入向量,Segmentemb是句子嵌入向量,Positionemb是位置嵌入向量;

步骤2.2、三维输入向量Input进入Transformer层,Transformer层由多个block块堆叠组成,下一个block块的输入为上一个block块的输出,最后一个block块输出的形式即是对正文进行的编码表示;

所述步骤2.2中,每一个block块均包括依次连接的多头自注意力层、残差连接层、归一化层、前馈网络层;每一个block块的数据处理过程为:首先多头注意力层结合残差连接层与归一化层表示为:

output=LayerNorm(x+MultiHead(x1,x2,x3));

其中,output为输出的网络层结果;LayerNorm(·)为归一化层;x为权重变量;

MultiHead(·)为多头注意力点积运算;x1为第一个网络层;x2为第二个网络层;x3为第三个网络层;

然后再经过包含了两个全连接层的前馈网络层;前馈层结合残差连接层与归一化层表示为:outputfinal=LayerNorm(x+FeedForward(x));

其中,outputfinal为最终输出结果;FeedForward(·)为前馈神经网络;

最后数据从block块中输出,作为下一个block块的输入,循环编码输入的向量;多个层的block块就进行堆叠,得到最终的句子向量和文章表征;第i个正文的句子向量集合为Ei={ei1,ei2,...,eim};其中,eim表示第i个正文中的第m个句子的向量表示;拼接所有句子向量,得到整篇文章的向量表示;

步骤2.3、对每篇文章中的句子向量在句子长度这一维度进行平均池化操作,得到一篇文章的向量表示,此时一篇文章向量维度变成了[Si,H];

步骤2.4、使用padding操作,将不同文章在句子数这一维度做扩充,使得一批文章的维度变为 表示一批文章的数量,L表示一篇文章中的正文句子数量;

BERT模型的训练过程包括两个关键阶段:预训练和微调;在预训练阶段,BERT模型通过遮蔽语言模型任务进行无监督学习;在微调阶段,BERT模型通过有监督学习在特定任务上进行微调;

步骤3、构建基于膨胀卷积和门控卷积的文本分类改进模型并进行模型训练;

所述步骤3中,文本分类改进模型包括膨胀卷积和门控卷积;具体数据流程为:步骤3.1、首先采用膨胀卷积进行计算,计算公式为:

其中,f为输入;a为膨胀率;ω是卷积核;t为卷积核的大小;p为卷积的下限值,q为卷积的上限值;F为f在位置t‑a*p处的取值;

步骤3.2、然后采用门控卷积与残差连接结合进行计算,计算公式为:

其中,Y为门控卷积输出的概率;Conv1D1为卷积层;X为变量值;σ为系数;Conv1D2为第二个卷积层; 为中间变量,步骤3.3、通过膨胀卷积和门控卷积计算出文章的输出以后,直接使用一个全连接线性变换来计算每一个句子的标签,得到序列标注的输出;第i个正文的输出序列为其中,sim为第i个正文中的第m个句子的标签预测结果,每个标签的取值为0或1;

步骤3.4、拼接标签预测结果为1的句子形成最终的抽取式摘要;

步骤4、获取当前待生成摘要,采用分句算法将正文分成若干句子;采用训练完成的文本分类改进模型对正文进行抽取,生成摘要。

2.根据权利要求1所述基于分句编码的抽取式文本摘要生成方法,其特征在于,所述步骤1中,训练数据集采用网络上公开的两个中文摘要数据集news2016zh和微信公众号数据集;训练数据集中的数据均为文章格式,文章包括正文和摘要两部分;采用分句算法对正文部分进行分句;采用摘要转换算法对摘要部分进行处理;

训练数据集中包含若干条数据,数据中正文部分为原文‑标签对格式,对原文‑标签对采用分句算法划分,得到文章中正文部分被分割成的句子集合和摘要标签集合;第i个正文的句子集合为Xi={senti1,senti2,...,sentim},第i个正文的摘要标签集合为Zi={zi1,zi2,...,zim};其中,sentim表示分句后第i个正文中的第m个句子,zim表示第i个正文中的第m个句子的摘要标签,zim取值为0或1;N为正文中出现的句子总数;

摘要转换算法采用ROUGE分数匹配的方式,ROUGE是一组用于自动摘要评估的指标;具体过程为:遍历摘要中的每个句子,计算每个句子的ROUGE分数,每一次迭代结束时,从摘要中删除ROUGE分数最高的句子,重复上述过程直到迭代结束,完成句子去重;将去重后的摘要内容按照筛选后的分数由高到低进行排序,将排序后的摘要作为抽取式摘要的标签,最终得到每篇文章去重后的摘要集合Abstract(Doc)=(sa1,sa2,...,sam);其中,Doc为文章,sam表示经过去重和排序后,摘要集合中的第m个句子。