利索能及
我要发布
收藏
专利号: 2020112496925
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,包括以下步骤:输入目标文本,得到目标文本的词向量、段向量和位置向量,将词向量、段向量和位置向量拼接作为Bert模型的输入向量,输入最佳Bert模型中,Bert层输出意图表示向量和槽值序列表示向量,将意图表示向量和槽值序列表示向量在Gate层通过权重计算,计算出联合作用因子,将联合作用因子作用于槽值序列表示向量,最终输出预测的意图分类和槽值序列;

其中,Bert模型先训练后使用,训练过程包括以下过程:S1、获得训练集的词向量、段向量和位置向量,将词向量、段向量和位置向量拼接作为模型的输入向量,输入Bert层,Bert层输出分类意图表示向量和槽值表示向量;

S2、将Bert层的输出数据输入到Gate层,在Gate层,首先用权重矩阵W统一意图表示向量和槽值表示向量的图形状;统一图形状之后,先用tanh激活函数分别处理意图表示向量和槽值表示向量,再利用不同的可训练向量分别对意图表示向量和槽值表示向量加权求和,得到联合作用因子t;

将联合作用因子t作用于Bert层的槽值表示向量,得到混入联合作用因子t的槽值表示向量 并输出Gate层;

S3、将Gate层输出的混入联合作用因子的槽值表示向量输入到Softmax层,进行槽值序列预测;

S4、将Bert层输出的意图表示向量输入到Softmax层进行意图分类预测;

意图分类预测:Softmax层直接使用Bert层输出的意图表示向量,计算每个类别的分类预测概率值,再进行归一化,将预测概率映射到(0,1)之间,计算表达式如下:I I I

y=softmax(W·HI+b)I I

其中,y 表示归一化后的意图类别预测,W 表示第一权重矩阵,HI表示Bert输出的意图I

分类表示向量,b表示偏置值;

计算每个类别的分类概率值后,取最大概率对应的分类作为意图类别预测值;根据意图类别预测值和真实的意图分类数计算意图识别损失函数,通过意图识别损失函数训练第I I

一权重矩阵W,得到训练好的第一权重矩阵W;

槽值序列预测:使用Softmax层归一化Gate层输出的槽值表示向量,取每个归一化后的最大概率值作为槽值预测值,计算整个目标文本的槽值损失之和,通过槽值损失函数训练S S

第二权重矩阵W,得到训练好的第二权重矩阵W;

I S

将每个epoch训练好的第一权重矩阵W 和训练好的第二权重矩阵W存储起来,得到多组I S

模型参数,每一组参数中包括一个训练好的第一权重矩阵W和训练好的第二权重矩阵W;

S5、验证集验证Bert模型效果,从多组模型参数中找到最优参数组:使用验证集,分别使用每个epoch已训练好的模型参数参与计算,计算验证集在每个模型参数组上的意图识别准确率和槽值填充的F1值,将意图识别准确率和槽值填充的F1值最高的一组模型参数作为最终模型参数,得到最佳Bert模型。

2.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,I

其特征在于,通过意图识别损失函数训练第一权重矩阵W ,具体包括:通过在意图识别损失函数中对可训练参数进行求导,获得各可训练参数的梯度值diff,求得所有可训练参数梯度值的平方和sum_diff,若sum_diff大于阈值,则计算第一缩放因子scale_factor=阈值/sum_diff,最后将所有第一缩放因子乘以各可训练参数梯度值,得到新的梯度值,使用Adam优化器将新的梯度值应用于变量,以更新优化可训练参数,直至意图识别损失函数达到最I

小时,可训练参数达到最合适的值,停止迭代过程,得到训练好的第一权重矩阵W。

3.根据其权利要求2所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,意图识别损失函数的计算公式如下:其中, 表示第i个真实标签, 表示Softmax层输出的意图类别预测值,K表示真实的I

意图分类数,J表示计算的意图识别的损失。

4.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,S

其特征在于,通过槽值损失函数训练第二权重矩阵W ,具体包括:通过槽值损失函数对可训练参数求导,获得各可训练参数的梯度值diff,求得所有可训练参数梯度值的平方和sum_diff,若sum_diff大于阈值,则计算第二缩放因子scale_factor=阈值/sum_diff,最后将所有第二缩放因子乘以各可训练参数梯度值,得到新的梯度值,每个epoch使用Adam优化器将新的梯度值应用于变量,以更新优化可训练参数,直至槽值损失函数达到最小时,停止迭S

代,得到训练好的第二权重矩阵W。

5.根据其权利要求4所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,槽值损失函数公式如下:其中 表示序列中第j个槽值对应的第i个真实标签, 是Softmax层输出的槽值序列预测值,表示序列中第j个槽值被预测为第i个真实标签的概率值,K表示真实的分类类别S

数,T表示序列的长度,J表示整个句子的的槽值损失。

6.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,统一图形状的计算表达式如下:H′I=W·HI

其中,HI表示Bert层输出的意图表示向量,H′I表示与槽值表示向量 图形状相同的意图表示向量。

7.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,联合作用因子t的计算表达式如下所示:其中, 表示Bert层输出的槽值表示向量,H′I表示与槽值表示向量 图形状相同的意图表示向量,t为同时考虑意图识别和槽值填充两个任务的联合作用因子,是综合了意图表示向量和槽值表示向量在槽值序列识别上的联合权重值。

8.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,使用Softmax层归一化Gate层输出的槽值表示向量,归一化表达式如下:S S

其中,W 表示第二权重矩阵, 表示Gate层输出的槽值表示向量,b表示偏置值, 表示slot归一化后的槽值序列预测。

9.根据其权利要求1所述的一种基于Bert模型的意图识别与槽值填充联合预测方法,其特征在于,混入联合作用因子t的槽值表示向量 计算表达式如下:其中, 表示混入联合作用因子的槽值表示向量, 表示Bert层输出的槽值表示向量,t为联合作用因子,concat(·)表示向量连接。