利索能及
我要发布
收藏
专利号: 201911037790X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于transformer和lstm的机器阅读方法,应用于电子装置,其特征在于,所述方法包括:采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;

采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;

将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;

通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;

采用所述lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。

2.根据权利要求1所述的基于transformer和lstm的机器阅读方法,其特征在于,所述glove词向量训练模型公式为:其中,Pij为共现概率;υi、υj为词向量;f为权重函数。

3.根据权利要求1所述的基于transformer和lstm的机器阅读方法,其特征在于,所述字段嵌入为:Cθ∈B×D

其中,Cθ表示任意一个经过嵌入处理的字符向量,其维度满足B x D。

4.根据权利要求1所述的基于transformer和lstm的机器阅读方法,其特征在于,所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,其公式如下:其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;Ht:表示文本的隐向量编码;

计算出每一个问题的字在每一个答案中的权重,其公式如下:

at=softmax(St:)

对所述问题进行加权平均处理,其公式为: 是一个t*d的矩阵;

将Ht:, 通过G函数进行融合获取维度为t*4d的矩阵G,其中,所述矩阵G为融合文本中问题与答案所有关联信息;

表示文本t中所有字隐向量加权和,其中权值为t中某个字与问题j中每个字相关度的最大值归一化后的结果。

5.根据权利要求4所述的基于transformer和lstm的机器阅读方法,其特征在于,所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;

将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;

将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;

将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;

将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。

6.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被所述处理器执行时实现如下步骤:采用glove词向量训练模型对待处理文本中所有的单词进行预训练,获取映射在同一向量空间中的待处理文本中所有单词的词向量;

采用字符级卷积神经网络对获取的所有单词的词向量进行处理,获取字段嵌入;

将所述词向量和所述字段嵌入进行拼接,形成输入向量,并通过highway非线性转换层对所述输入向量进行处理;

通过lstm对通过所述highway非线性转换层处理过的输入向量进行处理,获取局部特征的文本,通过transformer对通过所述highway非线性转换层处理过的输入向量进行处理,获取整体特征的文本,并对所述局部特征的文本与所述整体特征的文本进行融合形成具有局部特征和整体特征的文本;

通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理,获取文本中问题与答案所有关联信息;

采用所述lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案。

7.根据权利要求6所述的电子装置,其特征在于,

所述glove词向量训练模型公式为:

其中,Pij为共现概率;υi、υj为词向量;f为权重函数。

8.根据权利要求6所述的电子装置,其特征在于,

所述通过Bidirectional Attention Flow模型以及transformer对获取的具有局部特征和整体特征的文本进行处理包括如下步骤:通过所述Bidirectional Attention Flow模型对所述文本中的问题和答案进行处理,其公式如下:其中,t代表每一段文本,j代表每一个问题,Stj(t*j的矩阵)代表t文本和j问题的相关度,+m表示按照矩阵乘法的方式进行加法,ti中i表示下标问题中的第i个单词,ji中i表示文本中对于问题中的第i个单词的注意力权重值;Ht:表示文本的隐向量编码;

计算出每一个问题的字在每一个答案中的权重,其公式如下:

at=softmax(St:)

对所述问题进行加权平均处理,其公式为: 是一个t*d的矩阵;

将Ht:, 通过G函数进行融合获取维度为t*4d的矩阵G,其中,所述矩阵G为融合文本中问题与答案所有关联信息;

表示文本t中所有字隐向量加权和,其中权值为t中某个字与问题j中每个字相关度的最大值归一化后的结果。

9.根据权利要求8所述的电子装置,其特征在于,

所述采用lstm对获取的文本中问题与答案所有关联信息进行处理,并输出开始概率和结束概率,并将所述开始概率和结束概率相乘,并将相乘后概率最高的一句话作为文本中问题的答案包括如下步骤:将获取的矩阵G输入双向lstm,得到所述文本中问题下的单词之间的关系的矩阵M;

将上下文信息表征与所述矩阵M进行拼接,获取到拼接矩阵;

将获取到的拼接矩阵输入第一单向lstm,并对所述第一单向lstm处理后的结果进行softmax处理,获取文本中答案的开始概率;

将所述开始概率、所述矩阵G以及所述矩阵M作为输入参数,输入到第二单向lstm进行处理,获取文本中答案的结束概率;

将所述开始概率和所述结束概率相乘,根据相乘的结果,将概率最高的那一句话作为答案。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于transformer和lstm的机器阅读程序,所述基于transformer和lstm的机器阅读程序被处理器执行时,实现如权利要求1至5中任一项所述的基于transformer和lstm的机器阅读方法的步骤。