欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2021114226268
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-07-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于智能语音助手的对话短文本语句匹配方法,其特征在于,该方法具体包括以下步骤:S1:对智能语音助手对话系统中的文本数据进行向量化,使用堆叠CNN和并行CNN提取文本的短语特征;

S2:使用堆叠的BiLSTM提取上下文特征,再经过新的句内自注意力机制,提取文本内部的关键特征;

S3:使用句间注意力机制提取交互特征,并通过压缩函数将多个交互特效进行聚合压缩,得到文本的匹配特征;

S4:将匹配特征输入MLP中,预测出文本的标签并进行后处理;

步骤S1中,使用堆叠CNN和并行CNN提取文本的短语特征,具体包括以下步骤:S111:获取文本的词向量和句法特征向量,句法特征向量由词性标注的one‑hot向量和二进制精确匹配特征向量组成;最终的文本向量w表示为:w=[dword;dpos;dem]

其中,dword为词向量,dpos为词性标注向量,dem为精确匹配特征向量;

S112:使用堆叠的CNN来捕获长度为k的短语级表示,每层的卷积核大小都为k,假设共有n个卷积层,每层的输出表示为:d

其中,每层的输入为上一层的输出, 为w,最终提取到的是长度为k的短语特征为p;

S113:使用并行的CNN来提取不同长度的短语级表示,每个卷积层具有不同的卷积核大小,假设有n个卷积层,则卷积核大小分别为k、k+1、…、k+n‑1,最终提取到的不同长度的短语特征为 其中, 为卷积核大小为k的卷积层的输出,依此类推;

S114:将所有的短语特征拼接起来,最终短语特征p表示为:S115:通过两层全连接层对短语特征向量进行降维,降维公式为:l l‑1

p=max(0,p W1+b1)W2+b2,l=1,2l 0

其中,W1、W2为连接权重矩阵,b1、b2为偏置项;p为第l层的输出,p=p,最终得到尺寸为[batch_size,seq_len,hidden_size]的向量,其中batch_size为样本数量,seq_len为样本长度,hidden_size为BiLSTM隐藏层大小;

步骤S2中,提取上下文特征和关键特征,具体包括以下步骤:S21:使用n层BiLSTM提取上下文特征,每层的输出表示为:th=BiLSTMh(th‑1),h=1,…,n2

其中,每一层的输入为上一层的输出,第一层的输入t0=p,p表示短语特征;

S22:采用BiLSTM+attention的模型来计算句内自注意力匹配权重,匹配计算采用双线性函数方法,公式如下:其中,c为第l层BiLSTM编码的最后一个时刻单元的状态值,与中间每一个时刻的输出h进行匹配计算,M为权重参数,b为偏执项,匹配结果进行softmax分类,得到语句内每个词的*句内自注意力权重w,根据计算得到的权重加权求和得到句内关键特征向量为t;

*

S23:将BiLSTM最后一层的输出tn和关键特征向量t拼接作为下一层的输入t,t的尺寸为:[batch_size,seq_len,hidden_size*2+1]其中,batch_size为样本数量,seq_len为样本长度,hidden_size为BiLSTM隐藏层大小;

步骤S3中,提取交互特征并压缩包括:

S31:使用四种句间注意力机制:concat attention、bilinear attention、dot attention以及minus attention提取交互特征,分别得到xc、xb、xd和xm四个交互特征向量;

S32:将交互特征进行聚合,通过以下方式将交互特征向量聚合起来:fc=F([t;x])

fm=F([t⊙x])

fs=F(t‑x)

*

其中,t为BiLSTM最后一层的输出tn和关键特征向量t拼接得到的向量,x为四种交互特征向量,F(·)为压缩函数,其计算公式如下:其中,N为特征维度;将xc、xb、xd和xm以及t分别输入到三个聚合函数中,分别得到12个标量;

S33:将t和12个标量拼接到一起,得到匹配特征z,z表示为:其中, 为fc=F([t;xc])的输出结果,依此类推;

步骤S31中,得到四个交互特征向量,具体包括:使用四种句间注意力机制的计算方式来计算两个句子中的单词对的相似度,构建相似度矩阵,归一化后作为权重,并通过权重以及另一个句子的各个词向量,结合起来得到词的交互特征向量。

2.根据权利要求1所述的对话短文本语句匹配方法,其特征在于,步骤S3还包括:将步骤S33得到的z输入到BiLSTM中,从全局的角度,整合语句的匹配信息;再采用平均池化和最大池化操作,将池化后的结果拼接起来,形成最终的匹配特征。

3.根据权利要求1所述的对话短文本语句匹配方法,其特征在于,步骤S4中,将匹配特征输入MLP中,预测出文本的标签并进行后处理,具体包括以下步骤:S41:用构建完成的训练集去训练五个模型,采用stacking方法对模型进行融合,最终预测智能语音助手对话文本的标签;

S42:获取语句A和B的拼音pa和pb,判断pa和pb是否相等,若相等则将语句A和B的标签置为1。