利索能及
我要发布
收藏
专利号: 2020112492178
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于Transformer的土木建筑信息领域自然语言问题生成方法,包括以下步骤:步骤1:维基百科开放域文本的预训练;构建基于Transformer的12层堆叠模块,对中文维基百科文本公开语料进行人工预处理,形成上下句形式的统一结构,然后将处理好的维基百科语料输入进入模型进行模型预训练;

步骤2:土木建筑信息领域文本的预训练;取出第一步预训练的模型参数,然后对互联网上获取的土木建筑信息文本语料进行二次预训练,获取领域知识;

步骤3:随机采样语料的编码训练;为了使得模型获取句法和语法生成能力,本方法采集了开放域问答文本数据,并设计了对开放域问答和土木建筑问答数据的随机采样机制;

不同的采样结果将通过嵌入方式输入到Transformer的不同层次模块中进行分层训练;

步骤4:训练优化与解码文本生成;在训练优化阶段,对于不同类型的采样数据,模型将取出不同层的Transformer模块进行梯度计算并反传优化;优化后的模型用于生成自然语言问题的推断,推断采用了beam search技术;

所述步骤3中,嵌入方式包括了Token词嵌入、段嵌入和位置嵌入;在嵌入编码时采用了UniLM的遮盖词策略,目的是提升模型的自然语言生成能力;

所述步骤3中,模型设计采用了12层UniLM思想的Transformer堆叠结构;

具体地,对给定输入序列{xi} (i=1, 2, ……, |X|),其被打包成初始输入序列H = 0

[x1, x2, x3, ……, x|X|],并将H 输入到了编码器结构的第一层编码模块;然后,l Transformer每一层编码模块的输入都来自上一层的输出,即形式化描述为H = l‑1Transformer(H ) (l =1, 2, …, L),其中L=12层;

l‑1 Q

在模型的每一层中,前一层输出为H W ,dh为模型的嵌入维度;查询矩阵Q,键值矩阵KQ K V dh×dK和值矩阵V是通过三个参数矩阵W ,W ,W (∈R ),经过对前一层的输出进行线性变换得到。

2.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤1和步骤2中,文本标记的方法,采用BERT模型的文本标记方法;预训练阶段采用同Bert相同的双向遮盖预训练机制和下半句预测训练机制。

3.根据权利要求2所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,所述双向遮盖词预测训练机制,允许token关注到其前后双向的文本内容;对上下文信息进行有效编码,从而生成上下文的信息表示。

4.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,预训练阶段在具体实现时,模型随机对token进行“[MASK]”替换;模型还对土木建筑信息语料进行了上下句的分割和组合,生成了上下句结构的文本;

生成的文本被输入到模型中,进行下半句预测任务的训练优化。

5.根据权利要求4所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤2中,下半句预测任务的训练优化具体实现时,模型随机对下半句进行替换;其中,50%的下半句被随机替换为其他序列,50%的下半句不进行替换;最终选择“[NSP]”token进行二分类预测,判定下半句是否为原始文本。

6.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤3中,分层训练具体为采样得到的不同类型语料,在模型中使用不同层的编码解码进行训练;针对土木建筑信息领域文本时,模型将使用传统的Bert方案进行训练,梯度从最后一层依次向前传递训练模型参数;针对开放域文本对时,模型直接取出Transformer堆叠模块的中间层,调用反传梯度来更新编码器前半部分的参数,同时锁定其他层的Transformer模块。

7.根据权利要求1所述的基于Transformer的土木建筑信息领域自然语言问题生成方法,其特征在于,所述步骤3中按照不同数据采用不同模块进行训练的方法,模型对Bert进行了特定领域信息的嵌入和常用百科知识的学习。