利索能及
我要发布
收藏
专利号: 2021106112123
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种实体识别模型训练方法,其特征在于,包括:

获取训练样本,所述训练样本包括训练标准实体和与每一所述训练标准实体相对应的多个训练同义实体;

采用词频算法,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,获取每一所述训练同义实体与所述训练标准实体的稀疏相似度;

采用语义识别模型,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,得到每一所述训练同义实体对应的密集相似度;

根据所述稀疏相似度和所述密集相似度,从所述训练同义实体中筛选得到目标同义实体;

采用批量梯度下降法对所述目标同义实体进行处理,获取多个分批训练集;

依次采用所述分批训练集,对biobert模型进行分批训练,优化所述biobert模型中的损失函数,获取实体识别模型;

所述根据所述稀疏相似度和密集相似度,从所述训练同义实体中筛选得到目标同义实体,包括:获取目标参数,所述目标参数包括获取数量参数和比例参数;

将密集相似度最高的前a个训练同义实体放入第一候选实体集,其中,a为所述数量参数和比例参数的积;

将稀疏相似度最高的前b个训练同义实体放入第二候选实体集,其中,b为所述数量参数减去a的差;

根据第一候选实体集和第二候选实体集获取与所述数量参数对应的目标同义实体,具体包括:判断第一候选实体集和第二候选实体集中是否存在相同的训练同义实体;若第一候选实体集和第二候选实体集中存在相同的训练同义实体,则将相同的训练同义实体从第一候选实体集中删除,得到第三候选实体集;统计第一候选实体集和第二候选实体集中相同的训练同义实体对应的实体数量;根据密集相似度从除第一候选实体集和第二候选实体集外的训练同义实体中,获取与实体数量相应的候选同义实体,根据候选同义实体、第二候选实体集和第三候选实体集获取目标同义实体。

2.如权利要求1所述的实体识别模型训练方法,其特征在于,所述采用词频算法,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,获取每一所述训练同义实体与所述训练标准实体的稀疏相似度,包括:采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理,获取所述训练标准实体的标准稀疏向量,以及每一所述训练同义实体的同义稀疏向量;

将每一所述同义稀疏向量分别与所述标准稀疏向量进行内积处理,获取每一所述同义稀疏向量与所述标准稀疏向量的稀疏相似度。

3.如权利要求1所述的实体识别模型训练方法,其特征在于,所述采用词频算法分别对训练标准实体和每一所述训练同义实体进行向量转化处理,获取所述训练标准实体的标准稀疏向量,以及每一所述训练同义实体的同义稀疏向量,包括:对所述训练标准实体和每一所述训练同义实体均进行分割处理,分别得到所述训练标准实体对应的多元分割字符和所有所述训练同义实体对应的多元分割字符;

采用TF‑IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取训练标准实体对应的标准稀疏向量;采用TF‑IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取每一所述训练同义实体的同义稀疏向量。

4.如权利要求3所述的实体识别模型训练方法,其特征在于,所述采用TF‑IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取训练标准实体对应的标准稀疏向量;

采用TF‑IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取每一所述训练同义实体的同义稀疏向量,包括:采用TF‑IDF算法对所述训练标准实体对应的多元分割字符进行处理,获取所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率;采用TF‑IDF算法对每一所述训练同义实体对应的多元分割字符进行处理,获取所述同义实体中包含的多元分割字符对应的词频和逆文档频率;

基于所述训练标准实体中包含的多元分割字符对应的词频和逆文档频率,获取训练标准实体对应的标准稀疏向量;

基于所述训练同义实体中包含的多元分割字符对应的词频和逆文档频率,获取训练同义实体对应的同义稀疏向量。

5.如权利要求1所述的实体识别模型训练方法,其特征在于,所述采用语义识别模型,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,得到每一所述训练同义实体对应的密集相似度,包括:采用语义识别模型对训练标准实体进行向量转化处理,获取所述训练标准实体的标准密集向量;

采用语义识别模型对每一所述训练同义实体进行向量转化处理,获取每一所述训练同义实体的同义密集向量;

将每一所述同义密集向量分别与所述标准密集向量进行内积处理,获取每一所述同义密集向量与所述标准密集向量的密集相似度。

6.如权利要求1所述的实体识别模型训练方法,其特征在于,在所述依次采用所述分批训练集,对biobert模型进行分批训练,优化所述biobert模型中的损失函数,获取实体识别模型之前,所述方法还包括:基于每一所述训练同义实体对应的所述稀疏相似度和所述密集相似度计算所述训练同义实体对应的目标相似度;

根据所述训练同义实体对应的目标相似度和所述目标同义实体对应的目标相似度确定每一所述训练同义实体的概率,基于所述训练同义实体的概率确定所述训练同义实体的边际概率;

基于每一所述训练同义实体的边际概率,获取损失函数。

7.一种实体识别模型训练装置,其特征在于,包括:

训练样本获取模块,用于获取训练样本,所述训练样本包括训练标准实体和与每一所述训练标准实体相对应的多个训练同义实体;

稀疏相似度获取模块,用于采用词频算法,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,获取每一所述训练同义实体与所述训练标准实体的稀疏相似度;

密集相似度获取模块,用于采用语义识别模型,对所述训练标准实体和每一所述训练同义实体进行向量相似度计算,得到每一所述训练同义实体对应的密集相似度;

目标同义实体获取模块,用于根据所述稀疏相似度和密集相似度,从所述训练同义实体中筛选得到目标同义实体;

分批训练集获取模块,用于采用批量梯度下降法对所述目标同义实体进行处理,获取多个分批训练集;

实体识别模型获取模块,用于依次采用所述分批训练集,对biobert模型进行分批训练,优化所述biobert模型中的损失函数,获取实体识别模型;

所述目标同义实体获取模块包括:

目标参数获取单元,用于获取目标参数,目标参数包括获取数量参数和比例参数;

第一候选实体集获取单元,用于将密集相似度最高的前a个训练同义实体放入第一候选实体集,其中,a为数量参数和比例参数的积;

第二候选实体集获取单元,用于将稀疏相似度最高的前b个训练同义实体放入第二候选实体集,其中,b为数量参数减去a的差;

目标同义实体获取单元,用于根据第一候选实体集和第二候选实体集获取与数量参数对应的目标同义实体;具体包括:判断第一候选实体集和第二候选实体集中是否存在相同的训练同义实体;若第一候选实体集和第二候选实体集中存在相同的训练同义实体,则将相同的训练同义实体从第一候选实体集中删除,得到第三候选实体集;统计第一候选实体集和第二候选实体集中相同的训练同义实体对应的实体数量;根据密集相似度从除第一候选实体集和第二候选实体集外的训练同义实体中,获取与实体数量相应的候选同义实体,根据候选同义实体、第二候选实体集和第三候选实体集获取目标同义实体。

8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至

6任一项所述实体识别模型训练方法的步骤。

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述实体识别模型训练方法的步骤。