买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态命名实体识别方法、装置、设备以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态命名实体识别方法、装置、设备以及存储介质

￥16200

专利号： 2023107123069

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态命名实体识别方法，其特征在于，包括以下步骤：

S1：获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块，所述视觉特征提取模块包括骨干网络以及颈部网络，所述骨干网络包括若干个依次相连的跨阶段融合卷积块，每个跨阶段融合卷积块均包括卷积模块以及特征提取模块；

S2：将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

S3：将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示，其中，所述卷积算法为：式中，为卷积特征表示，CBL（）为标准卷积激活函数，LeakyReLu（）为激活函数，BN（）为批量正则化函数，Conv（）为卷积函数，x为输入数据；

S4：将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示，其中，所述特征提取算法为：式中，为第一中间输出特征表示，为第二中间输出特征表示，R为输出特征表示，ResNet_blocks（）为残差卷积函数，SiLU（）为激活函数，Concat（）为拼接函数；

S5：将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复步骤S3 S4，获得各个所述跨阶段融合卷积块~的输出特征表示，作为若干个尺度对应的输出特征表示，其中，所述若干个尺度对应的输出特征表示为：式中，为第i个尺度对应的输出特征表示，为第m个尺度对应的输出特征表示，按照尺度大小，1

S6：将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示；

S7：将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

S8：将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

S9：将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

2.根据权利要求1所述的多模态命名实体识别方法，其特征在于：所述颈部网络包括第一特征融合模块以及第二特征融合模块，其中，所述第一特征融合模块包括依次相连的跨阶段融合卷积块以及若干个构建块；

所述将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示，包括步骤：将所述若干个尺度对应的输出特征表示输入至所述第一特征融合模块，采用上采样方法，根据预设的第一特征融合算法，获得所述跨阶段融合卷积块输出的第一特征融合表示，以及若干个所述构建块输出的第一特征融合表示，其中，所述第一特征融合算法为：式中，为所述第一特征融合模块中，跨阶段融合卷积块输出的第一特征融合表示，CSPResNet（）为跨阶段融合卷积函数，为所述第一特征融合模块中，第i个构建块输出的第一特征融合表示，Concat（）为拼接函数，UpSample（）为上采样函数；

从所述若干个构建块输出的第一特征融合表示中，提取目标构建块输出的第一特征融合表示，将所述跨阶段融合卷积块输出的第一特征融合表示以及目标构建块输出的第一特征融合表示输入至所述第二特征融合模块，根据预设的第二特征融合算法，获得所述图像对应的视觉特征表示，其中，所述第二特征融合算法为：式中，O为第二特征融合表示，F为所述视觉特征表示，、分别为索引为a、b对应的目标构建块输出的第一特征融合表示。

3.根据权利要求2所述的多模态命名实体识别方法，其特征在于，所述将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示，包括步骤：根据所述视觉特征表示以及预设的通道注意力矩阵构建算法，获得通道注意力矩阵，根据所述视觉特征表示、通道注意力矩阵以及预设的通道细化特征计算算法，获得通道细化特征表示，其中，所述通道注意力矩阵构建算法为：式中，为所述通道注意力矩阵，为sigmoid激活函数，MLP（）为多层感知器函数，为平均池化函数，为最大池化函数；

所述通道细化特征计算算法为：

式中，为所述通道细化特征表示，为逐元素乘法符号；

根据所述通道细化特征表示以及预设的空间注意力矩阵构建算法，获得空间注意力矩阵，根据所述通道细化特征表示、空间注意力矩阵以及预设的空间细化特征计算算法，获得空间细化特征表示，作为所述注意力提取后的视觉特征表示，其中，所述空间注意力矩阵构建算法为：式中，为所述空间注意力矩阵；

所述空间细化特征计算算法为：

式中，为所述空间细化特征表示。

4.根据权利要求3所述的多模态命名实体识别方法，其特征在于，所述将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示，包括步骤：根据所述文本特征表示、注意力提取后的视觉特征表示以及预设的跨模态注意力特征计算算法，获得跨模态注意力特征表示，其中，所述跨模态注意力特征计算算法为：式中，为Atten为所述跨模态注意力特征表示，softmax（）为归一化指数函数，C为所述文本特征表示，为维度参数；

根据所述文本特征表示、跨模态注意力特征表示以及预设的跨模态特征计算算法，获得所述跨模态特征表示，其中，所述跨模态特征表示包括若干个文本节点对应的跨模态特征向量，所述跨模态特征计算算法为：式中，H为所述跨模态特征表示，LN（）为层归一化函数，FFN（）为前馈神经网络函数。

5.根据权利要求4所述的多模态命名实体识别方法，其特征在于，所述将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果，包括步骤：构建所述跨模态特征表示对应的标签表示以及标签可能性表示，其中，所述标签表示包括若干个文本节点对应的标签向量，所述标签可能性表示包括若干个文本节点对应的标签可能性向量；

根据所述跨模态特征表示、标签表示、标签可能性表示以及预设的命名实体识别概率标量算法，获得所述文档数据的命名实体识别概率标量，其中，所述命名实体识别概率标量算法为：式中，为所述命名实体识别概率标量，e为文本节点数目，y为所述标签表示，为所述标签可能性表示，表示第i个文本节点对应的标签向量到第i+1个文本节点对应的标签向量的转移概率分数，表示第i个文本节点对应的标签可能性向量到第i+1个文本节点对应的标签可能性向量的转移概率分数，以及分别为所述命名实体识别模块的第一可训练权重参数矩阵、第二可训练权重参数矩阵，为所述跨模态特征表示中第i个文本节点对应的状态向量；

根据所述命名实体识别概率标量以及预设的命名实体算法，获得所述文档数据的命名实体识别结果，其中，所述命名实体算法为：式中，为所述命名实体识别结果，Y为预设的标签类型集，包括若干种标签类型，为求集合函数。

6.一种多模态命名实体识别装置，其特征在于，包括：

数据获取模块，用于获得文档数据以及预设的多模态命名实体识别模型，其中，所述文档数据包括句子以及图像，所述多模态命名实体识别模型包括文本特征提取模块、视觉特征提取模块、视觉注意力提取模块、跨模态交互模块以及命名实体识别模块，所述视觉特征提取模块包括骨干网络以及颈部网络，所述骨干网络包括若干个依次相连的跨阶段融合卷积块，每个跨阶段融合卷积块均包括卷积模块以及特征提取模块；

装置文本特征提取模块，用于将所述句子输入至所述文本特征提取模块进行特征提取，获得所述句子对应的文本特征表示；

装置视觉特征提取模块，用于将所述图像作为所述骨干网络中的首个跨阶段融合卷积块的卷积模块的输入数据，根据预设的卷积算法，获得所述图像的卷积特征表示，其中，所述卷积算法为：式中，为卷积特征表示，CBL（）为标准卷积激活函数，LeakyReLu（）为激活函数，BN（）为批量正则化函数，Conv（）为卷积函数，x为输入数据；

将所述卷积特征表示输入至所述首个跨阶段融合卷积块的特征提取模块中，根据预设的特征提取算法，获得所述首个跨阶段融合卷积块的特征提取模块的输出特征表示，其中，所述特征提取算法为：式中，为第一中间输出特征表示，为第二中间输出特征表示，R为输出特征表示，ResNet_blocks（）为残差卷积函数，SiLU（）为激活函数，Concat（）为拼接函数；

将所述首个跨阶段融合卷积块的特征提取模块的输出特征表示作为下一个跨阶段融合卷积块的卷积模块的输入特征表示，重复执行装置视觉特征提取模块，获得各个所述跨阶段融合卷积块的输出特征表示，作为若干个尺度对应的输出特征表示，其中，所述若干个尺度对应的输出特征表示为：式中，为第i个尺度对应的输出特征表示，为第m个尺度对应的输出特征表示，按照尺度大小，1

将所述若干个尺度对应的输出特征表示输入至颈部网络中进行特征融合，获得所述图像对应的视觉特征表示；

装置注意力提取模块，用于将所述视觉特征表示输入至所述视觉注意力提取模块中进行注意力提取，获得注意力提取后的视觉特征表示；

装置跨模态特征提取模块，用于将所述文本特征表示以及注意力提取后的视觉特征表示输入至所述跨模态交互模块中进行特征交互，获得跨模态特征表示；

装置命名实体识别模块，用于将所述跨模态特征表示输入至所述命名实体识别模块中进行实体识别，获得所述文档数据的命名实体识别结果。

7.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的多模态命名实体识别方法的步骤。