1.一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述方法包括以下步骤:通过文章与问题编码模块,对输入的文章和问题进行上下文编码;
通过交互模块,采用注意力机制和门控机制突出上下文信息的重要特征,并对突出的关键特征更新;
通过多级残差结构模块,将原始语义信息分别与经过注意力机制得到的表示和经过门控机制得到的表示相融合;
通过答案预测模块,预测问题的可回答性和可回答问题的答案;
所述通过多级残差结构模块,将原始语义信息分别与经过注意力机制得到的表示和经过门控机制得到的表示相融合,包括:把经过注意力机制和门控机制得到的细粒度向量表示作为模拟人类精读时的效果;把从编码器端得到的向量序列作为粗粒度向量表示,模拟人类略读时的结果;
采用跳跃连接构建了文章P与注意力表示QP的第一级残差结构,表达如下:QP′=ReLU(P+QP)
其中,ReLU是激活函数;
经过门控机制,使用跳跃连接建立上下文向量表示H与经过门控机制后得到的向量G的第二级残差结构,表达如下:I=ReLU(H+G)
s×h
其中,ReLU是激活函数,I∈R ,表示I的维度是s×h;
最终得到的I用来决定序列中的每个单词作为起止位置的概率;
所述通过答案预测模块,预测问题的可回答性和可回答问题的答案,包括:提出额外的边缘损失函数最大化答案预测和无答案分类之间的欧式距离,最终训练的损失函数L包含三种损失,表达如下:L=Lossext+Lossclass+Lossjoint在阅读过程,得到最终包含粗细两种粒度的语义向量表示I,将它送到全连接层,分别得到每个单词的起止位置表示,在训练过程中,采用交叉熵损失函数作为训练目标,表达如下:其中, 和 分别是第i个问题起止位置的真实位置标签,N是问题的个数;
对于问题的可回答性,通过预训练语言模型生成的基于上下文信息的向量表示训练一个分类任务,由于问题的可回答性是二分类,在训练的过程中采用二分类的交叉熵损失函数,表达如下:采用边缘损失函数联合训练,让样例向标签对应的可回答性方向缩小距离,并远离相反方向,进一步学习它们之间的特征差异,并让答案的抽取任务和问题的分类任务具有强耦合性;将得到的起止位置表示经过归一化后分别得到答案起止位置的概率,将起止位置概率的乘积作为正样本的概率,表达如下:Phas_ans=softmax(P′开始·P′结束)将经过预训练语言模型生成的向量表示分类后,得到问题没有答案的概率作为负样本的概率,表达如下:Pno_ans=softmax(H)
边缘损失函数计算标签与正样本概率和负样本概率之间的距离,计算的是两两之间的欧式距离,表达如下:d(x,y)=||x‑y||2
在训练的过程中边缘损失函数最大化无答案分类和有答案预测之间的距离,表达如下:
2.根据权利要求1所述的一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述通过文章与问题编码模块,对输入的文章和问题进行上下文编码,包括:定义有m个词的文章为P={p1,p2,…,pm},有n个词的问题为Q={q1,q2,…,qn};
把问题Q和文章P拼接为一个定长的序列:起始位置用[CLS]来标识,作为整个序列的句向量;
问题Q和文章P之间用标识符[SEP]隔开,文章P的结尾同样用[SEP]标识;
对于整个序列的长度,如果序列超过定长则截断,采用滑动窗口生成下一个序列;如果序列没有达到定长,则用[PAD]补齐;
把生成的序列作为输入送到编码器端,并将E={e1,e2,…,es}作为带有嵌入特征的向量序列;
将向量E送到多层Transformer结构中,其中每一层包含两部分,一部分是多头注意力,另一部分是前馈层;
把最终经过多层Transformer得到的编码器的输出用H={h1,h2,…,hs}表示。
3.根据权利要求1所述的一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的注意力机制采用双向注意流模型,工作原理包括:用点积计算第i个文章单词和第j个问题单词之间的相似度分数,表示如下:m×n
其中,pi表示第i个文章词,qj表示第j个问题词,T是转置符号,Sij∈R ,表示生成的Sij维度是m×n;
构建文章对问题的注意力和问题对文章的注意力来获得基于问题的文章表示:多个相似度分数Sij构成相似度矩阵S,对所述相似度矩阵S做行归一化得到矩阵S1,表达如下:S1=softmax→(S)
计算对于每个文章词,哪个问题词与其最相关;
文章对问题的注意力会突出该问题词的特征,表达如下:Apq=S1•Q
其中,Apq表示文章对问题的注意力,Q是问题;
先对行取最大值,然后再对列做归一化得到矩阵S2,表达如下:S2=softmax↓(max→(S))以用于表示哪一个文章词对问题词中的某个词最相关,则证明该文章词对回答问题重要;
问题对文章的注意力根据对问题词相关的文章词来突出文章词的特征,表达如下:Aqp=S2•P
其中,Aqp是问题对文章的注意力,P是文章;
通过融合方式得到最后的基于问题的文章表示,表达如下:QP=[P;Apq;P·Apq;P·Aqp]。
4.根据权利要求1所述的一种基于门控机制的多任务联合训练机器阅读理解方法,其特征在于,所述交互模块的门控机制的工作原理包括:将文章词分别与文章对问题的注意力和融合后的基于问题的文章表示进行拼接并经过激活函数,得到权重值,表达如下:z=sigmoid(Wz[P;Apq]+bz)r=sigmoid(Vr[P;QP′]+br)其中,P表示文章,Apq表示文章对问题的注意力,QP′表示经过门控机制后的基于问题的文章表示z和r分别用来决定更新部分的权重,对提取的特征进行更新,表达如下:hz=(1‑z)⊙Apq+z⊙P
hr=(1‑r)⊙QP′+r⊙P
将两个经过更新后的向量取均值得到最终的门控机制向量,表达如下:G=mean(hz+hr)
其中,G表示经过门控机制后得到的向量。