1.一种基于BERT‑BLSTM‑RPEA‑LSTM的语义槽填充与意图检测联合方法,其特征在于,包括如下步骤:S1、构建一个由共享网络及两个分类网络组成的模型框架,所述模型包括词嵌入层、编码器层、RPEA机制以及解码双任务分类层,其中共享网络由“BERT‑BLSTM‑RPEA‑LSTM”组成,两个分类网络分别对应语义槽填充和意图检测的前馈神经网络;
S2、对S1所述的模型进行训练,通过S1所述模型输出获得的两种预测向量和真实值的误差计算损失并更新除词嵌入层以外整个网络模型的参数,得到语义槽填充与意图检测模型;
S3、基于S2所述语义槽填充与意图检测模型,根据从对话系统中获得的待检测的对话文本句子,实现对待检测对话文本句子中语义槽的填充和意图的检测。
2.根据权利要求1所述的检测方法,其特征在于,所述词嵌入层是将给定的对话文本句子数据在句首加入意图分类词后输入到词嵌入模型中获得单词的上下文语义嵌入特征向量。
3.根据权利要求2所述的检测方法,其特征在于,在文本句子输入到词嵌入模型前,将‘[CLS]’词加入到句首作为意图分类时的输入词,从而将语义槽填充和意图检测两个任务′统一为一个序列标签任务,然后对句子分词获得句子分词后的单词索引X ,最后进行嵌入′获得词嵌入特征向量序列E;
′
X=Token(X)
′ ′
E=BERT(X)
′
E=select(E)
其中X={x1,x2,…,xN}代表加入‘[CLS]’词的输入句子单词序列,N代表输入句子单词的最大个数,对于单词个数小于N的句子在句子末尾加入‘[PAD]’进行填充,E={e1,e2,…,eN}; 代表最终词单词语义特征序列,其中对应输入词为‘[PAD]’的语义特征向量通过select操作替换成零向量,从而使填充单词不作为信息传递的词。
4.根据权利要求3所述的检测方法,其特征在于,所述编码器层是将得到词嵌入向量输入编码器层获得单词的隐藏层特征向量。
5.根据权利要求4所述的检测方法,其特征在于,所述编码器层选择一个包含前向和后向LSTM的BLSTM网络,并设置网络的输入维度为De,输出维度为Dh=256。
6.根据权利要求5所述的检测方法,其特征在于,通过将获取的单词语义特征序列E分别输入到前向和后向的LSTM网络中,求得一个能获取t之前前向隐藏层特征向量信息的以及一个能获取t之后后向隐藏层特征向量信息的 最后将 和 拼接作为最终的隐藏层特征向量ht,即编码器层的输出;
其中
7.根据权利要求6所述的检测方法,其特征在于,所述RPEA机制是将获得的每个句子中每个单词的隐藏层特征向量通过RPEA机制分别计算出一个对应的全局加局部注意力补充信息向量。
8.根据权利要求7所述的检测方法,其特征在于,对获取的每个隐藏层特征向量计算一个补充信息向量,当对第t个隐藏层向量ht计算补充信息向量ct时,先计算出一个全局的阈值参数向量 和一个局部阈值参数向量 然后ct可由at与rt求哈达玛积之后与隐藏层特征向序列做乘积求得;通过先将ht和每一个隐藏层特征向量拼接,然后与参数矩阵Wα做矩阵乘法运算并送入双曲正切阈值函数,接着再与参数矩阵Vα求相乘获得一个全局注意的得分,最终对全局得分归一化得到全局阈值参数向量at;局部阈值参数向量rt由每个隐藏层特征向量相对ht位置及ht计算得到的局部注意得分并通过sigmoid阈值函数求得;
global_s(ht,hi)=[tanh([ht;hi]×Wα)]×Vα其中 T代表矩阵的转
置,rt,i∈(0,1)。
9.根据权利要求8所述的检测方法,其特征在于,所述解码双任务分类层包含一个解码器和双任务分类网络,使用前向LSTM网络作为解码器,使用FFNN作为语义槽填充和意图检测两个任务的网络模型,解码器的输入为隐藏层特征序列与求得的补充信息序列拼接后的拼接序列,解码器输出为每个单词的最终特征向量,之后将每句话的第一个词对应的最终特征向量输入到意图检测网络获得意图空间分布,将剩余的单词最终特征向量输入到语义槽填充网络得到语义槽空间分布,最终将双任务分类网络的输出归一化后得到预测向量。
10.根据权利要求9所述的检测方法,其特征在于,所述步骤S2具体包括:S201、整个网络的损失由语义槽损失和意图损失组成,将每个意图或语义槽视为一个不同的类别,标签平滑识别损失用于监督训练编码器、RPEA机制以及解码双任务分类层中的各个参数,它们的损失定义为:L=δLI+(1‑δ)LS
其中qi表示意图i的真实标签,pi是预测意图标签; 代表第j个词对应输出语义槽s的预测标签, 是真实语义槽标签;δ∈[0,1]用于调节对这两个损失的关注程度;
S202、将当前获得的损失反馈到网络模型中,通过Adam优化器调整模型中的参数进行不断迭代优化,以降低损失并提高对目标预测的准确率。