买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态命名实体识别方法、装置、设备以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态命名实体识别方法、装置、设备以及存储介质

￥16200

专利号： 2023104975762

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述句子包括若干个单词，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，其中，所述句子序列表示包括若干个单词的状态向量，图像序列表示包括若干个图像子区域的状态向量；

将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；

将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，根据所述图像序列表示中各个图像子区域的状态向量，构建图像语义图，所述图像语义图包括若干个视觉节点，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，采用无向边的方式，将每个视觉节点与相邻的视觉节点进行连接，构建内图像矩阵；

根据所述句子序列表示、图像序列表示、图像全局特征表示以及预设的第一多头注意力算法以及第二多头注意力算法，获得若干个单词对各个图像子区域的第一权重信息，以及若干个图像子区域对各个单词的第二权重信息，其中，所述第一多头注意力算法为：式中，为第i个单词对第j个图像子区域的第一权重信息，m为注意力的头数，为第u个注意力的第一权重矩阵，为第u个注意力的第二权重矩阵，为第i个单词的状态向量，为图像全局特征表示，为第j个图像子区域的状态向量，d为维度参数；

所述第二多头注意力算法为：

式中，为第j个图像子区域对第i个单词的第二权重信息，为第u个注意力的第三权重矩阵，为第u个注意力的第四权重矩阵；

对所述若干个单词对各个图像子区域的第一权重信息进行归一化处理，获得归一化处理后的若干个单词对各个图像子区域的第一权重信息，进行组合，构建句子对图像矩阵，对所述若干个图像子区域对各个单词的第二权重信息进行归一化处理，获得归一化处理后的若干个图像子区域对各个单词的第二权重信息，进行组合，构建图像对句子矩阵；

将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；

构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；

将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于：所述标签数据包括若干个所述单词的词性标注；所述编码模块包括词嵌入模块、目标检测模块、维度变换模块以及独热编码模块；

所述将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，包括步骤：将所述句子输入至所述词嵌入模块中，获得初始句子序列表示，其中，所述初始句子序列表示包括若干个单词的状态向量；

将所述图像输入至所述目标检测模块进行目标检测，获得初始图像序列表示，其中，所述初始图像序列表示包括若干个图像子区域的状态向量；

将所述初始句子序列表示以及初始图像序列表示输入至所述维度变换模块中进行维度变换，获得所述句子序列表示以及图像序列表示；

将所述标签数据输入至所述独热编码模块中，获得词性序列表示，其中，所述词性序列表示包括若干个单词的词性向量。

3.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，包括步骤：根据所述句子对图像矩阵中，归一化处理后的若干个单词对各个图像子区域的第一权重信息以及预设的视觉关注向量计算算法，获得若干个单词的视觉关注向量，根据所述句子序列表示、若干个单词的视觉关注向量以及预设的第一相似度向量计算算法，获得若干个单词的第一相似度向量，其中，所述视觉关注向量计算算法为：式中，为第i个单词的视觉关注向量，q为图像子区域的总数，为归一化处理后的第i个单词对第j个图像子区域的第一权重信息；

所述第一相似度向量计算算法为：

式中，为第i个单词的第一相似度向量，为第一可训练权重参数矩阵；

根据所述图像对句子矩阵中，归一化处理后的若干个图像子区域对各个单词的第二权重信息以及预设的文本关注向量计算算法，获得若干个图像子区域的文本关注向量，根据所述图像序列表示、若干个图像子区域的文本关注向量以及预设的第二相似度向量计算算法，获得若干个图像子区域的第二相似度向量，其中，所述文本关注向量计算算法为：式中，为第j个图像子区域的文本关注向量，n为单词的总数，为归一化处理后的第j个图像子区域对第i个单词的第二权重信息；

所述第二相似度向量计算算法为：

式中，为第j个图像子区域的第二相似度向量，为第二可训练权重参数矩阵；

根据所述句子全局特征表示、图像全局特征表示以及预设的第三相似度向量计算算法，获得全局相似度向量，其中，所述第三相似度向量计算算法为：式中，为全局相似度向量，为第四可训练权重参数矩阵，为句子全局特征表示；

将所述若干个单词的第一相似度向量与所述全局相似度向量进行组合，构建句子相似度序列，将若干个图像子区域的第二相似度向量与所述全局相似度向量进行组合，构建图像相似度序列；

将所述句子相似度序列、图像相似度序列分别输入至预设的多层自注意力层，根据预设的推理算法，获得增强后的句子相似度序列以及图像相似度序列，其中，所述推理算法为：式中，为多层自注意力层的第l层的句子相似度序列，为多层自注意力层的第l层的图像相似度序列，、、、、、分别为多层自注意力层的第一、第二、第三、第四、第五以及第六可训练权重参数矩阵，ReLU（）为激活函数，softmax（）为归一化函数；

分别从所述增强后的句子相似度序列以及图像相似度序列中，提取全局相似度向量相应的元素，作为句子增强全局相似度向量以及图像增强全局相似度向量，根据所述句子增强全局相似度向量以及图像增强全局相似度向量以及预设的匹配度计算算法，获得匹配度，作为所述图文匹配推理信息，其中，所述匹配度计算算法为：式中，r为匹配度，为非线性函数，为第三可训练权重参数矩阵，为句子增强全局相似度向量，为图像增强全局相似度向量。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，包括步骤：根据所述图文匹配推理信息、图像序列表示以及预设的处理算法，获得处理后的图像序列表示，其中，所述处理算法为：式中，M为处理后的图像序列表示，为元素排序符号，O为图像序列表示。

5.根据权利要求4所述的多模态命名实体识别方法，其特征在于：所述跨模态特征提取模块包括多层交互层；

所述将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示，包括步骤：将所述词性序列表示以及语义图特征表示作为所述多层交互层的首层输入数据，根据预设的第三多头注意力算法，获得注意力权重矩阵，根据所述注意力权重矩阵，构建语义邻接矩阵以及内文本矩阵，将所述内文本矩阵、内图像矩阵、句子对图像矩阵以及图像对句子矩阵进行组合，构建跨模态邻接矩阵，其中，所述第三多头注意力算法为：式中，为第l层交互层的第u个注意力的注意力权重矩阵，、分别为第l

层交互层的第u个注意力的第一可训练权重参数矩阵以及第二可训练权重参数矩阵，P为词性序列表示，为第l‑1层交互层的语义图特征表示；

所述语义邻接矩阵为：

式中，为第l层交互层的语义邻接矩阵；

所述内文本矩阵为：

式中，为第l层交互层的内文本矩阵，为对第l层交互层的m个注意力的注意力权重矩阵求和结果，为的第i行第j列的数值；

所述跨模态邻接矩阵为：

式中，为第l层交互层的跨模态邻接矩阵，为局部匹配矩阵，为句子对图像矩阵与图像对句子矩阵累加结果，为内图像矩阵；

根据所述语义图特征表示、语义邻接矩阵以及预设的第一更新算法，获得更新后的语义图特征表示，其中，所述更新后的语义图特征表示包括若干个文本节点对应的状态向量，所述第一更新算法为：式中，为第l层交互层的语义图特征表示，作为更新后的语义图特征表示，为标准化处理后的语义邻接矩阵，为第l层交互层的第一可训练权重参数矩阵，为第l层交互层的第一偏置参数；

根据所述跨模态图特征表示、跨模态邻接矩阵以及预设的第二更新算法，获得更新后的跨模态图特征表示，所述更新后的跨模态图特征表示包括若干个文本节点对应的状态向量，其中，所述第二更新算法为：式中，为第l层交互层的跨模态图特征表示，作为更新后的跨模态图特征表示，为标准化处理后的跨模态邻接矩阵，为第l层交互层的第二可训练权重参数矩阵，为第l层交互层的第二偏置参数；

基于同一个文本节点，将所述更新后的语义图特征表示以及跨模态图特征表示进行拼接处理，获得跨模态特征表示。

6.根据权利要求5所述的多模态命名实体识别方法，其特征在于，所述将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果，包括步骤：构建所述跨模态特征表示对应的标签表示以及标签可能性表示，其中，所述标签表示包括若干个文本节点对应的标签向量，所述标签可能性表示包括若干个文本节点对应的标签可能性向量；

根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量计算算法，获得所述文档数据的命名实体识别概率标量，其中，所述命名实体识别概率标量算法为：式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，为所述标签可能性表示，表示第i个文本节点对应的标签向量到第i+1个文本节点对应的标签向量的转移概率分数，表示第i个文本节点对应的标签可能性向量到第i+1个文本节点对应的标签可能性向量的转移概率分数，以及分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，为所述跨模态特征表示中第i个文本节点对应的状态向量；

根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果，其中，所述命名实体算法为：式中，为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，为求集合函数。

7.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得文档数据、标签数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述句子包括若干个单词，所述图像包括若干个图像子区域，所述多模态命名实体识别模型包括编码模块、全局特征提取模块、矩阵构建模块、图文匹配推理模块、跨模态特征提取模块以及命名实体识别模块；

编码模块，用于将所述文档数据以及标签数据输入至所述编码模块中进行编码处理，获得所述句子对应的句子序列表示、图像对应的图像序列表示以及标签数据对应的词性序列表示，其中，所述句子序列表示包括若干个单词的状态向量，图像序列表示包括若干个图像子区域的状态向量；

全局特征提取模块，用于将所述句子序列表示以及图像序列表示分别输入至所述全局特征提取模块中进行特征提取，获得句子全局特征表示以及图像全局特征表示；

矩阵构建模块，用于将所述句子序列表示、图像序列表示以及图像全局特征表示输入至所述矩阵构建模块中进行矩阵构建，根据所述图像序列表示中各个图像子区域的状态向量，构建图像语义图，所述图像语义图包括若干个视觉节点，所述视觉节点上设置有相应位置索引的图像子区域的状态向量，采用无向边的方式，将每个视觉节点与相邻的视觉节点进行连接，构建内图像矩阵；

所述第二多头注意力算法为：

式中，为第j个图像子区域对第i个单词的第二权重信息，为第u个注意力的第三权重矩阵，为第u个注意力的第四权重矩阵；

匹配推理模块，用于将所述句子序列表示、图像序列表示、句子全局特征表示、图像全局特征表示、句子对图像矩阵以及图像对句子矩阵输入至所述图文匹配推理模块中进行相似度匹配推理，获得图文匹配推理信息，根据所述图文匹配推理信息，对所述图像序列表示进行处理，获得处理后的图像序列表示，其中，所述图文匹配推理信息用于指示相关联的图像子区域的比例；

跨模态特征提取模块，用于构建基于所述词性序列表示的语义图特征表示，以及基于所述句子序列表示以及处理后的图像序列表示的跨模态图特征表示，将所述词性序列表示、语义图特征表示、跨模态图特征表示、内图像矩阵、句子对图像矩阵以及图像对句子矩阵输入至所述跨模态特征提取模块中进行特征提取，获得跨模态特征表示；

命名实体识别模块，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

8.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的多模态命名实体识别方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多模态命名实体识别方法的步骤。