1.一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,包括获取数据并对数据进行预处理;将预处理后数据送入训练好的抽取式阅读理解模型,通过抽取式阅读理解模型输出针对数据的问题的最佳答案;抽取式阅读理解模型包括SpanBERT编码模块、外部知识融合模块以及片段选择模块;
训练抽取式阅读理解模型的过程包括以下步骤:S1.获取原始阅读理解数据集,对原始阅读理解数据集进行预处理,得到预处理后的文本和问题;
S2.将预处理后的文本和问题输入到SpanBERT编码模块,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答,若可回答,则进入步骤S3;
S3.从外部知识融合模块得到预处理后的问题相关的知识信息向量,并将知识信息向量通过哨兵机制与文本和问题的上下文特征表示融合,得到融合文本;
S4.根据融合文本,采用全连接操作获取预处理后的问题的答案,若存在多个答案相同的片段,则启用片段选择模块得到抽取结果;设置迭代次数初始值;
S5.采用交叉熵损失函数对抽取结果计算损失值,根据损失值计算抽取式阅读理解模型的优化结果并反向传播,调整抽取式阅读理解模型的参数;
S6.设置最大迭代次数,判断迭代次数是否达到最大迭代次数,若达到,则完成抽取式阅读理解模型的训练,否则返回步骤S5,且迭代次数加1。
2.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,对原始阅读理解数据集进行预处理包括:S11.设定文本长度阈值,判断每个文本的长度是否超过文本长度阈值;
S12.若超过文本长度阈值,则计算文本中的每个句子和问题的相似度;
S13.相似度计算完成后按降序排列,留下和问题最相关的TOP K个句子;
其中相似度计算公式为:
Sqp表示问题和文本句的相似度得分,cos(θ)表示余弦相似度计算,Qi表示问题句中的第i个单词,Pi表示文本句中的第i个单词,n表示文本的最大长度。
3.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,获取文本和问题的上下文特征表示并判断预处理后的问题是否可回答的过程为:S21.将预处理后的的文本和问题进行组合,组合后的格式为:W(P,Q)=[CLS],P1,…,Pn,[SEP],Q1,…,Qm,[SEPend];
S22.对组合后的文本和问题添加位置信息,得到词嵌入表示序列并输入SpanBERT编码模块,词嵌入表示序列的计算公式为:S23.采用融合外部知识的多头自注意力机制处理词嵌入表示序列,得到包含句子语义的向量序列;
S24.将包含句子语义的向量序列经过多层Transformer编码器提取特征向量;
S25.将特征向量中的第一个标记[CLS]作为分类任务中该向量的总表示,根据[CLS]判断问题是否可回答,若[CLS]=[0],则不可回答,若[CLS]=[1],则可回答;
其中,P=(P1,…,Pi,…,Pn)表示文本句,Q=(Q1,…Qj,…,Qm)表示问题句,Pi表示文本句中的第i个单词,Qj表示问题句中的第j个单词,[CLS]表示分类标志,[SEP]表示分隔标志,[SEPend]表示结尾标志, 为词嵌入表示序列中第i个词的词嵌入, 为词嵌入表示序列中第i个词的位置嵌入。
4.根据权利要求3所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,采用融合外部知识的多头自注意力机制处理词嵌入表示序列的过程包括:S31.根据词嵌入表示序列,从外部知识库中获取候选知识,采用双线性公式计算候选知识与词嵌入表示序列的相关性,双线性公式为:S32.引入知识哨兵向量来判断某个单词是否需要加入外部知识信息,其公式为:S33.若需要加入,则将候选知识中的知识向量与知识哨兵向量融合,得到知识状态向量,融合公式为:
S34.将知识状态向量与词嵌入表示序列进行拼接,得到融合外部知识的词嵌入表示序列,融合公式为:
fi=[hi;ki];
S35.对融合外部知识的词嵌入表示计算多头注意力,计算公式为:Q K V
headi=Att(QWi ,KWi ,VWi);
O
As=Concat(head1,…,headh)W;
其中,f(·)表示双线性函数,e1表示主体实体向量,e2表示对象实体向量,r表示e1和e2的关系,Mr表示关系的嵌入矩阵,αij表示注意力权重,cj表示候选知识中的第j个知识向量,表示候选知识中第j个知识向量的转置,W表示可训练权重参数,hi为词嵌入表示序列中第i个词的词嵌入向量表示;σ表示sigmoid函数,h表示隐藏层的输出,Wi表示预处理后的文本和问题组合后的序列中第i个词,βi表示注意力权重, 表示知识哨兵向量的转置,Wb、U表示可训练权重参数; 表示知识哨兵向量,ki表示知识状态向量;fi表示词嵌入表示序列中的第i个词的词嵌入向量表示融合外部知识,[;]表示向量拼接操作;Q表示查询向量、K表Q K V O
示键向量、V表示值向量;headi表示不同头的注意力;Wi、Wi 、Wi和W表示可训练权重参数;
Concat(·)表示将不同的注意力拼接;As表示多头注意力的结果。
5.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,对答案内容相同的片段进行片段选择的过程包括:S41.采用全连接操作计算融合文本中每个单词作为答案时,其开始位置和结束位置的概率分布;
S42.根据开始位置和结束位置的概率分布乘积得到最优的答案边界;
S43.若存在多个相同的最优答案边界,则采用Jacard分别计算每个边界上下文和问题的相关度,选择相关度高的边界为最终抽取的答案。
6.根据权利要求5所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,相关度计算公式为:
其中,Ps:e表示答案片段,Q表示问题句;len(Ps:eand Q)表示答案片段和问题句中都包含的单词长度;len(Ps:eor Q)表示答案片段和问题句中所有不重复单词的长度;α表示可调整的超参数;abs表示求绝对值函数。
7.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,交叉熵损失函数为:
其中,θ是所有需训练的权重参数的集合,N是训练时每次传进抽取式阅读理解模型的
1 2
数据大小,P 和P是文本中开始索引和结束索引的概率分布, 和 是第i个问题中正确答案的开始和结束位置。
8.根据权利要求1所述的一种基于外部知识和片段选择的抽取式阅读理解方法,其特征在于,采用Adam算法计算抽取式阅读理解模型的优化结果,Adam算法的优化公式为:θt+1=θt+Δθt;
其中,Δθt表示时间步t时的Adam更新值,μ表示步长,表示修正后一阶矩的偏差,表示修正后二阶矩的偏差,δ表示用于数值稳定的小常数,θt+1表示时间步t+1时更新后的值,θt表示时间步t时的值。