利索能及
我要发布
收藏
专利号: 2021110000205
申请人: 华南师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模态命名实体识别方法,其特征在于,包括:获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;

获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;

将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;

将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;

将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;

将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;

将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;

将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。

2.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示,包括:获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息,通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量;

将每个词的所述词性向量、词向量、上下句向量和位置向量求和,输入至预训练的双向自注意力模型进行编码,获得所述文本的上下文表示。

3.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词,包括:将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得多个目标命名实体词的分类得分;

根据所述分类得分对所述目标命名实体词进行从高到低排序,取前k个目标命名实体词构成目标命名实体词集合;

将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表,生成对象嵌入向量;

将所述对象嵌入向量输入至单层感知机,获得与所述上下文表示的维度相同的图像实体词;其中,生成对象嵌入向量的公式为:为每个所述目标命名实体词, 为所述对象嵌入向量, 表示所述词嵌入表,表示从所述词嵌入表 中查询每个所述目标命名实体词 对应的所述对象嵌入向量 ,;

获得与所述上下文表示相同维度的图像实体词的公式为:为所述图像实体词, 是 激活函数, 和 为所述单层感知机中可训练的权重参数。

4.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述多头跨模态注意力机制模型包括第一跨模态注意力层、第二跨模态注意力层和第三跨模态注意力层,所述将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量,包括:将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层,并以所述图像实体词作为查询向量,所述上下文表示作为键和值,获得图像引导上下文注意力的输出表示;

将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层,并以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量;

将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层,并以所述上下文表示作为查询向量,所述图像实体词作为键和值,获得所述图像实体词对应的图像向量;

其中,获得图像引导上下文注意力的输出表示的公式为:是所述第一跨模态注意力层的第 个头,是所述图像实体词,是所述上下文表示, 是训练一个批次的句子数量,是所述第一跨模态注意力层的多头注意力的头数, 、 、 和 是所述第一跨模态注意力层的权重参数, 表示转置,是所述第一跨模态注意力层的 个头的组合, 是所述第一跨模态注意力层的第1个头到第 个头, 是所述图像引导上下文注意力的输出表示,是 激活函数, 是 激活函数;

获得所述上下文表示对应的文本向量的公式为:是所述第二跨模态注意力层的第 个头, 是所述第二跨模态注意力层的多头注意力的头数, 、 、 和 是所述第二跨模态注意力层的权重参数,是所述第二跨模态注意力层的 个头的组合, 是所述第二跨模态注意力层的第1个头到第 个头,是所述上下文表示对应的文本向量;

获得所述图像实体词对应的图像向量的公式为:是所述第三跨模态注意力层的第 个头, 是所述第三跨模态注意力层的多头注意力的头数, 、 、 和 是所述第三跨模态注意力层的权重参数,是所述第三跨模态注意力层的 个头的组合, 是所述第三跨模态注意力层的第1个头到第 个头, 是所述图像实体词对应的图像向量。

5.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述门控机制模型包括多模态门和过滤门,所述将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征,包括:将所述文本向量和所述图像向量输入至所述多模态门进行融合,获得所述文本向量和所述图像向量的初始融合特征;

将所述初始融合特征输入至所述过滤门进行过滤,获得所述文本向量和所述图像向量的多模态融合特征;

其中,获得所述文本向量和所述图像向量的初始融合特征的公式为:是所述图像向量, 是所述文本向量, 、 和 是所述多模态门的权重参数,和 是所述多模态门的偏置参数, 是所述图像向量 经过 激活函数运算之后生成的新的图像向量, 是所述文本向量 经过 激活函数运算之后生成的新的文本向量,是sigmoid激活函数,表示向量的级联, 是所述新的图像向量的多模态门权重系数,是所述新的文本向量的多模态门权重系数, 是所述文本向量和所述图像向量的初始融合特征;

获得所述文本向量和所述图像向量的多模态融合特征的公式为:, , 和 是所述过滤门的权重参数, 和 是所述过滤门的偏置参数, 是[0,1]范围内的标量,是所述上下文表示,是过滤门滤除噪声后保留的多模态融合特征,是所述文本向量和所述图像向量的多模态融合特征。

6.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述混合专家系统包括专家门和知识库,所述将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量,包括:

构建每个所述多模态融合特征对应的多个专家级特征;

将所述多模态融合特征和所述知识库输入至所述专家门,获得多个所述专家级特征对应的置信度;

将所述专家级特征和所述置信度相乘并求和,获得所述第一隐藏层向量;

其中,构建专家级特征的公式为:表示每一个所述多模态融合特征 对应的n个所述专家级特征, 是以e为底的指数函数, 表示所述多模态融合特征 经过 激活函数运算之后得到的第一个所述专家级特征, 表示所述多模态融合特征 经过 激活函数运算之后得到的第n个所述专家级特征;

获得置信度的公式为:

是所述混合专家系统的知识库, 表示每一个所述多模态融合特征 对应的n个所述置信度, 表示所述多模态融合特征 经过 激活函数的运算结果,表示向量的级联, 是 激活函数;

获得所述第一隐藏层向量的公式为:是所述第一隐藏层向量。

7.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量,包括:将所述上下文表示 输入至自注意力层进行编码,获得所述上下文表示对应的隐藏层向量 ;

将所述隐藏层向量 的第一个元素 和最后一个元素 去除,获得第二隐藏层向量 。

8.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果,包括:

将所述第二隐藏层向量与所述预设的概率转换矩阵的乘积,与所述第一隐藏层向量求和,获得第三隐藏层向量;

将所述第三隐藏层向量输入至条件随机场,获得命名实体识别结果;其中,获得第三隐藏层向量公式为:

是所述第二隐藏层向量, 是所述预设的概率转换矩阵, 是所述第一隐藏层向量, 是所述第三隐藏层向量;

获得命名实体识别结果公式为:

是当前句子中每个词的标注结果, 是一个训练批次中所有句子中的词标注结果的集合, 和 是所述条件随机场的权重参数, 和 是所述条件随机场的偏置参数, 是所述命名实体识别结果。

9.一种多模态命名实体识别装置,其特征在于,包括:数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;

向量获取模块,用于获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;

特征提取模块,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;

向量获得模块,用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;

向量融合模块,用于将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;

融合特征输入模块,用于将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;

上下文编码模块,用于将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;

结果获得模块,用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。

10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项所述的多模态命名实体识别方法。