利索能及
我要发布
收藏
专利号: 2021104822823
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种命名实体识别模型的训练方法,其特征在于,包括:获取至少一个训练样本,其中,所述训练样本包括文本的词向量矩阵以及真实标签序列;

将所述训练样本输入至待训练的命名实体识别模型中,利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理,得到每一时间步的嵌入词向量矩阵;

将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数,得到所述策略函数输出的每一时间步的标签概率分布;

根据所述标签概率分布进行采样,得到每一时间步的预测标签序列;

根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数,根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励;

将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数,得到所述奖励函数输出的每一时间步的第二奖励;

根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布,对所述策略函数的参数进行训练,直至所述策略函数收敛,得到训练完成的命名实体识别模型;

其中,所述将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数,得到所述奖励函数输出的每一时间步的第二奖励,包括:获取每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化;

根据所述每一时间步的奖励向量以及所述每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化,获取所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值;

根据所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值,获取每一时间步的第二奖励。

2.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述获取至少一个训练样本,包括:

对所述文本中的句子进行分词处理,得到所述文本对应的分词序列;

对所述分词序列进行语义提取,得到词向量矩阵,其中,所述词向量矩阵包括所述分词序列中每个分词的融合了句子语义的词向量;

对所述分词序列中每个分词的真实标签进行标注,得到真实标签序列;

利用所述文本的词向量矩阵以及真实标签序列构建训练样本。

3.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励,包括:根据每一时间步的精度参数以及所述每一时间步之前的相邻时间步的精度参数计算每一时间步的精度参数梯度;

根据所述每一时间步的精度参数梯度以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励。

4.根据权利要求1所述的命名实体识别模型的训练方法,其特征在于,所述根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布,对所述策略函数的参数进行训练,包括:

根据每一时间步之后的所有时间步的第二奖励之和,得到每一时间步的累加第二奖励;

根据每一时间步的累加第二奖励以及每一时间步的标签概率分布,利用梯度下降法对策略函数的参数进行训练。

5.一种命名实体的识别方法,其特征在于,包括:将待处理文本进行词向量化处理,得到所述待处理文本的词向量矩阵;

将所述待处理文本的词向量矩阵输入至预先训练的命名实体识别模型,利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理,得到嵌入词向量矩阵,并根据所述嵌入词向量矩阵输出识别标签序列;

其中,所述命名实体识别模型是根据权利要求1至4任一项所述的命名实体识别模型的训练方法训练获取的,所述命名实体识别模型在训练时的奖励函数的输入包括所述词向量矩阵中每个候选对象的每一时间步的第一奖励,所述奖励函数的输出用于表征对所述每一时间步的预测标签序列的准确性的评价结果;

所述词向量矩阵中每个候选对象的每一时间步的第一奖励是根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布获取的;所述每一时间步的标签概率分布是根据所述命名实体识别模型的策略函数在强化学习过程中根据所述每一时间步的所述嵌入词向量矩阵进行预测得到的。

6.一种命名实体识别模型的训练装置,其特征在于,包括:训练样本构建模块,用于获取至少一个训练样本,所述训练样本包括文本的词向量矩阵以及真实标签序列;

掩码处理模块,用于将所述训练样本输入至待训练的命名实体识别模型中,利用所述命名实体识别模型的每一时间步的掩码矩阵对所述词向量矩阵进行掩码处理,得到每一时间步的嵌入词向量矩阵;

预测模块,用于将所述嵌入词向量矩阵输入至所述命名实体识别模型的策略函数,得到所述策略函数输出的每一时间步的标签概率分布;

采样模块,用于根据所述标签概率分布进行采样,得到每一时间步的预测标签序列;

第一奖励计算模块,用于根据每一时间步的所述预测标签序列以及所述真实标签序列获取所述命名实体识别模型的每一时间步的精度参数,根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布计算所述词向量矩阵中每个候选对象的每一时间步的第一奖励;

第二奖励计算模块,用于将所述词向量矩阵中每个候选对象的每一时间步的第一奖励输入至奖励函数,得到所述奖励函数输出的每一时间步的第二奖励;

参数调节模块,用于根据所述每一时间步的第二奖励以及所述每一时间步的标签概率分布,对所述策略函数的参数进行训练,直至所述策略函数收敛,得到训练完成的命名实体识别模型;

其中,所述第二奖励计算模块用于:获取每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化;

根据所述每一时间步的奖励向量以及所述每一时间步与所述每一时间步之前的任意一个时间步的嵌入词向量矩阵的状态变化,获取所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值;

根据所述每一时间步与所述每一时间步之前的任意一个时间步的奖励变化值,获取每一时间步的第二奖励。

7.一种命名实体的识别装置,其特征在于,包括:词表示模块,用于将待处理文本进行词向量化处理,得到所述待处理文本的词向量矩阵;

识别模块,用于将所述待处理文本的词向量矩阵输入至预先训练的命名实体识别模型,利用所述命名实体识别模型的掩码矩阵对所述词向量矩阵进行掩码处理,得到嵌入词向量矩阵,并根据所述嵌入词向量矩阵输出识别标签序列;

其中,所述命名实体识别模型是根据权利要求1至4任一项所述的命名实体识别模型的训练方法训练获取的,所述命名实体识别模型在训练时的奖励函数的输入包括所述词向量矩阵中每个候选对象的每一时间步的第一奖励,所述奖励函数的输出用于表征对所述每一时间步的预测标签序列的准确性的评价结果;

所述词向量矩阵中每个候选对象的每一时间步的第一奖励是根据所述每一时间步的精度参数以及所述每一时间步的标签概率分布获取的;所述每一时间步的标签概率分布是根据所述命名实体识别模型的策略函数在强化学习过程中根据所述每一时间步的所述嵌入词向量矩阵进行预测得到的。

8.一种电子设备,其特征在于,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1~4中任一项所述的命名实体识别模型的训练方法或者实现如权利要求5所述的命名实体的识别方法。

9.一种存储介质,其特征在于,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现如权利要求1~4中任一项所述的命名实体识别模型的训练方法或者实现如权利要求5所述的命名实体的识别方法。