买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态命名实体识别方法、装置以及计算机设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态命名实体识别方法、装置以及计算机设备

￥16200

专利号： 2024107106443

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

获得若干个训练文档数据以及训练文档数据的命名识别真实标签数据，其中，所述训练文档数据包括训练感知文本以及训练图像，所述训练感知文本包括实体感知文本、视觉区域感知文本以及三元组感知文本；

对若干个所述训练文档数据的训练感知文本以及训练图像进行编码处理，获得若干个所述训练文档数据的训练感知文本表示以及训练图像表示，其中，所述训练感知文本表示包括实体感知文本表示、视觉区域感知文本表示以及三元组感知文本表示；

将同一个所述训练文档数据的实体感知文本表示、视觉区域感知文本表示以及三元组感知文本表示分别与所述训练图像表示进行组合，构建若干个所述训练文档数据的训练任务组合对，其中，所述训练任务组合对包括实体感知任务组合对、视觉区域感知任务组合对以及三元组感知任务组合对；

将若干个所述训练文档数据的训练任务组合对输入至初始多模态命名实体模型中进行命名识别，根据若干个所述训练文档数据的训练任务组合对以及预设的命名识别算法，获得若干个所述训练文档数据的命名识别预测标签数据，其中，所述命名识别预测标签数据包括实体感知任务以及三元组感知任务对应的命名实体预测概率分布数据、三元组感知任务对应的实体类别预测概率分布数据、视觉区域感知任务以及三元组感知任务对应的视觉区域位置坐标预测概率分布数据，所述命名识别算法为：式中，为实体感知任务对应的命名实体预测概率分布数据，为命名识别函数，为训练图像表示，为实体感知文本表示，为视觉区域感知任务对应的视觉区域位置坐标预测概率分布数据，为视觉区域感知文本表示，为三元组感知任务对应的命名实体预测概率分布数据，为三元组感知任务对应的实体类别预测概率分布数据，为三元组感知任务对应的视觉区域位置坐标预测概率分布数据，为三元组感知文本表示；

根据若干个所述训练文档数据的命名识别预测标签数据以及命名识别真实标签数据，对所述初始多模态命名实体模型进行训练，获得目标多模态命名实体模型；

获得待测文档数据的编码表示，所述编码表示包括待测文本表示以及待测图像表示，将所述待测文档数据的编码表示输入至所述目标多模态命名实体模型中进行命名识别，获得所述待测文档数据的命名识别结果。

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述对若干个所述训练文档数据的训练感知文本以及训练图像进行编码处理，获得若干个所述训练文档数据的训练感知文本表示以及训练图像表示，包括步骤：将若干个所述训练文档数据的训练感知文本输入至预设的词嵌入模型中进行编码处理，获得若干个所述训练文档数据的训练感知文本表示；

将若干个所述训练文档数据的训练图像输入至预设的目标检测模型中进行目标检测，获得若干个所述训练文档数据的训练图像表示。

3.根据权利要求1所述的多模态命名实体识别方法，其特征在于：所述命名实体预测概率分布数据包括若干个命名实体的预测概率分布向量，所述实体类别预测概率分布数据包括若干个命名实体类别的预测概率分布向量，所述视觉区域位置坐标预测概率分布数据包括若干个视觉区域位置坐标的预测概率分布向量；

所述命名识别真实标签数据包括实体感知任务以及三元组感知任务对应的命名实体真实概率分布数据、三元组感知任务对应的实体类别真实概率分布数据、视觉区域感知任务以及三元组感知任务对应的视觉区域位置坐标真实概率分布数据；所述命名实体真实概率分布数据包括若干个命名实体的真实概率分布向量，所述实体类别真实概率分布数据包括若干个命名实体类别的真实概率分布向量，所述视觉区域位置坐标真实概率分布数据包括若干个视觉区域位置坐标的真实概率分布向量。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述根据若干个所述训练文档数据的命名识别预测标签数据以及命名识别真实标签数据，对所述初始多模态命名实体模型进行训练，获得目标多模态命名实体模型，包括步骤：根据同一个所述训练文档数据的命名识别预测标签数据以及命名识别真实标签数据，构建若干个所述训练文档数据的若干个类型的训练概率分布数据组合，其中，所述训练概率分布数据组合包括相同类型的预测概率分布数据以及真实概率分布数据；

根据同一个所述训练文档数据的若干个训练概率分布数据组合以及预设的交叉熵损失计算算法，获得若干个所述训练文档数据的若干个训练概率分布数据组合的损失值，将同一个所述训练文档数据的若干个训练概率分布数据组合的损失值进行累加，获得若干个所述训练文档数据的总损失值，根据所述总损失值，对所述初始多模态命名实体模型进行训练，获得目标多模态命名实体模型，其中，所述交叉熵损失计算算法为：式中，为损失值，为训练概率分布数据组合的预测概率分布数据的第j个预测概率分布向量，为训练概率分布数据组合的真实概率分布数据的第j个真实概率分布向量。

5.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得若干个训练文档数据以及训练文档数据的命名识别真实标签数据，其中，所述训练文档数据包括训练感知文本以及训练图像，所述训练感知文本包括实体感知文本、视觉区域感知文本以及三元组感知文本；

数据编码模块，用于对若干个所述训练文档数据的训练感知文本以及训练图像进行编码处理，获得若干个所述训练文档数据的训练感知文本表示以及训练图像表示，其中，所述训练感知文本表示包括实体感知文本表示、视觉区域感知文本表示以及三元组感知文本表示；

数据处理模块，用于将同一个所述训练文档数据的实体感知文本表示、视觉区域感知文本表示以及三元组感知文本表示分别与所述训练图像表示进行组合，构建若干个所述训练文档数据的训练任务组合对，其中，所述训练任务组合对包括实体感知任务组合对、视觉区域感知任务组合对以及三元组感知任务组合对；

模型训练模块，用于将若干个所述训练文档数据的训练任务组合对输入至初始多模态命名实体模型中进行命名识别，根据若干个所述训练文档数据的训练任务组合对以及预设的命名识别算法，获得若干个所述训练文档数据的命名识别预测标签数据，其中，所述命名识别预测标签数据包括实体感知任务以及三元组感知任务对应的命名实体预测概率分布数据、三元组感知任务对应的实体类别预测概率分布数据、视觉区域感知任务以及三元组感知任务对应的视觉区域位置坐标预测概率分布数据，所述命名识别算法为：式中，为实体感知任务对应的命名实体预测概率分布数据，为命名识别函数，为训练图像表示，为实体感知文本表示，为视觉区域感知任务对应的视觉区域位置坐标预测概率分布数据，为视觉区域感知文本表示，为三元组感知任务对应的命名实体预测概率分布数据，为三元组感知任务对应的实体类别预测概率分布数据，为三元组感知任务对应的视觉区域位置坐标预测概率分布数据，为三元组感知文本表示；

命名识别模块，用于获得待测文档数据的编码表示，所述编码表示包括待测文本表示以及待测图像表示，将所述待测文档数据的编码表示输入至所述目标多模态命名实体模型中进行命名识别，获得所述待测文档数据的命名识别结果。

6.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的多模态命名实体识别方法的步骤。

7.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的多模态命名实体识别方法的步骤。