买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态命名实体识别方法、装置、设备以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态命名实体识别方法、装置、设备以及存储介质

￥16200

专利号： 2023104423733

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

获得待测文档数据以及预设的多模态命名实体识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；

将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量；

根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量；

将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵；

将所述第二特征感知多模态矩阵作为所述多模态交互模块的首层交互层的输入数据，根据预设的上下文向量计算算法，获得所述多模态交互模块的最后一层交互层输出的各个所述文本节点对应的上下文向量，以及各个所述视觉节点对应的上下文向量，其中，所述上下文向量计算算法为：式中，为所述多模态交互模块的第l层交互层的文本节点对应的上下文向量，为所述多模态交互模块的第l‑1层交互层的文本节点对应的状态向量，为所述多模态交互模块的第l‑1层交互层的视觉节点对应的状态向量，为所述多模态交互模块的第l层交互层的视觉节点对应的上下文向量，为对数函数，为自注意力函数；

根据各个所述文本节点对应的上下文向量，各个所述视觉节点对应的上下文向量以及预设的向量融合算法，获得各个所述文本节点对应的融合向量，以及各个所述视觉节点对应的融合向量，其中，所述向量融合算法为：式中，为第i个文本节点对应的融合向量，为第j个视觉节点对应的融合向量，为第i个文本节点的邻居视觉节点集合，为第j个视觉节点的邻居文本节点集合，、、以及分别为所述多模态交互模块的第l层交互层的第一权重矩阵、第二权重矩阵、第三权重矩阵以及第四权重矩阵，为所述多模态交互模块的第l层交互层的第i个文本节点对应的上下文向量，为所述多模态交互模块的第l层交互层的第j个视觉节点对应的上下文向量，为激活函数，为元素排序符号；

根据各个所述文本节点对应的融合向量，各个所述视觉节点对应的融合向量以及预设的节点更新算法，获得更新后的各个所述文本节点对应的状态向量，以及更新后的各个所述视觉节点对应的状态向量，构建第三特征感知多模态矩阵，其中，所述节点更新算法为：式中，为更新后的所述文本节点对应的状态向量，为更新后的所述视觉节点对应的状态向量，为文本节点对应的融合向量，，为视觉节点对应的融合向量，，为卷积函数；

提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示；

将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；

将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，包括步骤：将所述待测句子输入至所述词嵌入模块中进行编码处理，获得所述待测句子的初始句子特征表示；

将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示；

将所述初始句子特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换，获得所述句子特征表示以及图像特征表示。

3.根据权利要求2所述的多模态命名实体识别方法，其特征在于，所述将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示之前，包括步骤：训练所述特征提取模块，所述训练所述特征提取模块，包括步骤：获得训练文档数据集，其中，所述训练文档数据集包括若干个训练文档数据，所述训练文档数据包括训练句子以及训练句子对应的训练图像；

将所述训练文档数据集输入至所述特征提取模块中，获得若干个所述训练文档数据对应的句子特征表示以及图像特征表示，分别对若干个所述训练文档数据对应的句子特征表示以及图像特征表示进行平均池化处理，获得若干个所述训练文档数据的句子全局特征表示以及图像全局特征表示；

根据若干个所述训练文档数据的句子全局特征表示、图像全局特征表示以及预设的第一损失函数，对所述特征提取模块进行训练，获得目标特征提取模块，其中，所述第一损失函数为：式中，为第i个训练文档数据的图像对文本损失值，为第i个训练文档数据的文本对图像损失值，为第一损失值，为第i个训练文档数据的图像全局特征表示，为第i个训练文档数据的句子全局特征表示，τ为温度系数，M为批次大小，为第j个训练文档数据的句子全局特征表示，为超参数，sim（）为余弦函数。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵之前，包括步骤：训练所述图文对齐模块，所述训练所述图文对齐模块，包括步骤：根据若干个所述训练文档数据对应的句子特征表示以及图像特征表示，构建各个所述训练文档数据的第一特征感知多模态矩阵；

对于各个所述训练文档数据的第一特征感知多模态矩阵，将所述第一特征感知多模态矩阵中首个文本节点作为目标文本节点，根据所述第一特征感知多模态矩阵中，目标文本节点对应的状态向量、各个视觉节点对应的状态向量以及预设的相似度分数计算算法，获得各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数，其中，所述相似度分数计算算法为：式中，S为目标文本节点与各个所述视觉节点的相似度分数，softmax（）为归一化函数，为第c个多头注意力的第一权重矩阵，为目标文本节点对应的状态向量，为视觉节点对应的状态向量，为第c个多头注意力的第二权重矩阵，d为维度参数，为多头注意力的头数；

根据各个所述训练文档数据对应的，目标文本节点与各个所述视觉节点的相似度分数，采用快速选择方法，分别对各个所述训练文档数据的第一特征感知多模态矩阵中的若干个所述视觉节点划分为正例视觉节点以及负例视觉节点，获得各个所述训练文档数据对应的正例视觉节点对应的状态向量，以及负例视觉节点对应的状态向量；

根据各个所述训练文档数据对应的正例视觉节点对应的状态向量，负例视觉节点对应的状态向量以及预设的第二损失函数，获得各个所述训练文档数据对应的第二损失值，根据各个所述训练文档数据对应的第二损失值，对所述图文对齐模块进行训练，获得目标图文对齐模块，其中，所述第二损失函数为：式中，为局部对齐对比损失值，k为正例视觉节点总数，为第i个正例视觉节点对应的状态向量，为第j个视觉节点对应的状态向量，J为视觉节点总数。

5.根据权利要求2所述的多模态命名实体识别方法，其特征在于，所述将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果，包括步骤：构建所述文档特征表示对应的标签表示以及标签可能性表示，其中，所述标签表示包括若干个文本节点对应的标签向量，所述标签可能性表示包括若干个文本节点对应的标签可能性向量；

根据所述文档特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述待测句子的命名实体识别概率标量，其中，所述命名实体识别概率标量计算算法为：式中，为所述命名实体识别概率标量，n为文本节点数目，y为所述标签表示，为所述标签可能性表示，表示第i个文本节点对应的标签向量到第i+1个文本节点对应的标签向量的转移概率分数，表示第i个文本节点对应的标签可能性向量到第i+1个文本节点对应的标签可能性向量的转移概率分数，以及分别为所述命名实体识别模块的第一可训练权重矩阵、第二可训练权重矩阵，为第i个文本节点对应的状态向量；

根据所述待测句子的命名实体识别概率标量以及预设的命名实体算法，获得所述待测文档数据的命名实体识别结果，其中，所述命名实体算法为：式中，为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，为求集合函数。

6.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得待测文档数据以及预设的多模态命名实体识别模型，其中，所述待测文档数据包括待测句子以及待测句子对应的待测图像，所述待测句子包括若干个单词，所述多模态命名实体识别模型包括特征提取模块、图文对齐模块、多模态交互模块以及命名实体识别模块；

特征提取模块，用于将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测句子对应的句子特征表示以及待测图像对应的图像特征表示，其中，所述句子特征表示包括若干个单词的状态向量，图像特征表示包括若干个图像子区域的状态向量；

矩阵构建模块，用于根据所述句子特征表示以及图像特征表示，构建第一特征感知多模态矩阵，其中，所述第一特征感知多模态矩阵包括若干个文本节点对应的状态向量，以及若干个视觉节点对应的状态向量；

图文对齐模块，用于将所述第一特征感知多模态矩阵输入至所述图文对齐模块中，对所述若干个文本节点以及视觉节点进行图文对齐，获得第二特征感知多模态矩阵；

节点更新模块，用于将所述第二特征感知多模态矩阵作为所述多模态交互模块的首层交互层的输入数据，根据预设的上下文向量计算算法，获得所述多模态交互模块的最后一层交互层输出的各个所述文本节点对应的上下文向量，以及各个所述视觉节点对应的上下文向量，其中，所述上下文向量计算算法为：式中，为所述多模态交互模块的第l层交互层的文本节点对应的上下文向量，为所述多模态交互模块的第l‑1层交互层的文本节点对应的状态向量，为所述多模态交互模块的第l‑1层交互层的视觉节点对应的状态向量，为所述多模态交互模块的第l层交互层的视觉节点对应的上下文向量，为对数函数，为自注意力函数；

提取所述第三特征感知多模态矩阵中若干个文本节点对应的状态向量进行组合，构建所述待测文档数据的文档特征表示；

命名实体识别模块，用于将所述文档特征表示输入至所述命名实体识别模块中进行实体识别，获得所述待测文档数据的命名实体识别结果。

7.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。