买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态情感分类方法、装置以及电子设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态情感分类方法、装置以及电子设备

￥16200

专利号： 202111026202X

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态情感分类方法，其特征在于，包括如下步骤：获取社交媒体的评论数据，所述评论数据包括文本和图像；

获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示；

将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；其中，将所述图像输入至残差网络进行特征提取，获得图像特征向量；将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示；

将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示；

将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息；

将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；其中，将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示；其中，获得多模态融合特征表示的公式为：是所述第一融合信息，是所述第二融合信息，表示所述第一融合信息和所述第二融合信息的乘积，是所述第一融合信息和所述第二融合信息经过激活函数的非线性变换结果，是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果，是sigmoid激活函数，是所述多模态融合特征表示，和是权重参数，和是偏置参数；

获得主题特征表示的公式为：

是所述LDA主题模型生成的文本的主题概率分布中第I个主题的生成概率，是所述第三融合信息，是所述主题特征表示；

获得平均上下文语义表示的公式为：是第个所述上下文语义表示，，是所述上下文语义表示的总数量，是所述平均上下文语义表示；

获得平均隐藏层状态表示的公式为是第个所述隐藏层状态表示，是所述隐藏层状态表示的总数量，是所述平均隐藏层状态表示；

获得图像特征表示的公式为：

是所述图像特征向量，是所述多头自注意力机制的第个头的注意力，，n是所述多头注意力机制的头数，是标度因子，是激活函数，、和是所述多头注意力机制的权重参数，表示拼接，是所述图像特征表示；

获得多模态信息的特征表示的公式为：是所述多模态信息的特征表示，[ , ]表示组合；

将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果。

2.根据权利要求1所述的多模态情感分类方法，其特征在于，所述获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示，包括：获取所述文本中的上下文词、目标词、以及所述上下文词与所述目标词之间的相对位置，通过词嵌入表将所述上下文词、所述目标词以及所述上下文词与目标词之间的相对位置编码成对应的上下文词向量、目标词向量和位置词向量；

将所述上下文词向量和所述位置词向量进行拼接之后，输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

其中，获得所述文本的上下文语义表示的公式为：是所述上下文词向量，是所述位置词向量，表示所述上下词向量和所述位置词向量的拼接，是所述多头自注意力机制的第个头的注意力，，h是所述多头自注意力机制的头数，是标度因子，是激活函数，、和是所述多头自注意力机制的权重参数，表示拼接，是所述文本的上下文语义表示。

3.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示，包括：将所述目标词向量和所述预设的主题词向量进行拼接，获得拼接后的词向量；

将所述拼接后的词向量输入至双向门控循环单元进行编码，获得所述隐藏层状态表示；

其中，获得所述隐藏层状态表示的公式为：表示第i个目标词向量，，是所述预设的主题词向量，是所述拼接后的词向量，是对所述词向量进行向前方向编码的隐藏层状态表示，是对所述词向量进行向后方向编码的隐藏层状态表示，是所述隐藏层状态表示，是对所述词向量进行向前方向编码的门控循环单元，是对所述词向量进行向后方向编码的门控循环单元。

4.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示，包括：将所述文本输入至LDA主题模型进行主题提取，获得主题词中每个主题词的概率分布；

其中，所述主题中至少包括多个主题词；

将所述主题中每个主题词的概率分布进行归一化处理，获得每个主题词的权重；

将所述权重与所述每个主题词对应的词向量进行加权求和，获得所述文本的主题嵌入表示；

其中，获得每个主题词的权重的公式为：是所述每个主题词的概率分布，是所述每个主题词的权重，是以e为底的函数，，；

获得所述文本的主题嵌入表示的公式为：是第个主题中第个主题词对应的词向量，是所述文本的主题嵌入表示。

5.根据权利要求1所述的多模态情感分类方法，其特征在于，所述多头交互注意力机制包括第一多头交互注意力层、第二多头交互注意力层和第三多头交互注意力层，所述将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息，包括：

将所述上下文语义表示和所述隐藏层状态表示输入至所述第一多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述上下文语义表示为键和值，获得第一融合信息；

将所述隐藏层状态表示和所述图像的位置表示输入至所述第二多头交互注意力层，以所述隐藏层状态表示为查询向量，以所述图像的位置表示为键和值，获得第二融合信息；

将所述上下文语义表示和所述主题嵌入表示输入至所述第三多头交互注意力层，以所述主题嵌入表示为查询向量，以所述上下文语义表示为键和值，获得第三融合信息；

其中，获得第一融合信息的公式为：是所述隐藏层状态表示，是所述上下文语义表示，是所述第一多头交互注意力层的第个头的注意力，，是所述第一多头交互注意力层的头数，是标度因子，是激活函数，、和是所述第一多头交互注意力层的权重参数，是转置，表示拼接，是所述第一融合信息；

获得第二融合信息的公式为：

是所述图像的位置表示，是所述第二多头交互注意力层的第个头的注意力，，是所述第二多头交互注意力层的头数，是标度因子，、和是所述第二多头交互注意力层的权重参数，是所述第二融合信息；

获得第三融合信息的公式为：

是第I个所述主题嵌入表示，是所述第三多头交互注意力层的第个头的注意力，，是所述第三多头交互注意力层的头数，是标度因子，、和是所述第三多头交互注意力层的权重参数，是所述第三融合信息。

6.根据权利要求1所述的多模态情感分类方法，其特征在于，所述将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，获得情感分类结果，包括：将所述多模态信息的特征表示输入至softmax分类器进行情感极性识别，计算概率分布，获得情感分类结果；

获得情感分类结果的公式为；

是所述情感分类结果，是所述softmax分类器的权重参数，是所述softmax分类器的偏置参数。

7.一种多模态情感分类装置，其特征在于，包括：数据获取模块，用于获取社交媒体的评论数据，所述评论数据包括文本和图像；

向量获取模块，用于获取所述文本的上下文词向量、目标词向量和位置词向量，将所述上下文词向量和所述位置词向量输入至多头自注意力机制进行编码，获得所述文本的上下文语义表示；

向量编码模块，用于将所述目标词向量和预设的主题词向量输入至双向门控循环单元进行编码，获得隐藏层状态表示；

图像特征提取模块，用于将所述图像输入至依次连接的残差网络和单层胶囊网络进行特征提取，获得图像的位置表示；其中，将所述图像输入至残差网络进行特征提取，获得图像特征向量；将所述图像特征向量输入至单层胶囊网络进行位置编码，获得图像的位置表示；

文本主题提取模块，用于将所述文本输入至LDA主题模型进行主题提取，获得所述文本的主题嵌入表示；

融合信息获得模块，用于将所述上下文语义表示、所述隐藏层状态表示、所述图像的位置表示、以及所述主题嵌入表示输入至多头交互注意力机制进行编码，获得第一融合信息、第二融合信息和第三融合信息；

特征表示获得模块，用于将所述第一融合信息、所述第二融合信息和所述第三融合信息输入至多模态融合层进行特征融合，获得多模态信息的特征表示；其中，将所述第一融合信息和所述第二融合信息输入至多模态融合层进行特征融合，获得多模态融合特征表示；

将所述第三融合信息与所述LDA主题模型生成的文本的主题概率分布中每个主题的生成概率相乘并求和，获得主题特征表示；将所述文本的上下文语义表示进行平均池化，获得平均上下文语义表示；将所述隐藏层状态表示进行平均池化，获得平均隐藏层状态表示；将所述平均隐藏层状态表示和所述图像特征向量输入至多头注意力机制进行编码，获得图像特征表示；将所述多模态融合特征表示、所述主题特征表示、所述平均上下文语义表示、以及所述图像特征表示组合，获得多模态信息的特征表示；其中，获得多模态融合特征表示的公式为：

是所述第一融合信息，是所述第二融合信息，表示所述第一融合信息和所述第二融合信息的乘积，是所述第一融合信息和所述第二融合信息经过激活函数的非线性变换结果，是所述第一融合信息和所述第二融合信息经过sigmoid激活函数的激活结果，是sigmoid激活函数，是所述多模态融合特征表示，和是权重参数，和是偏置参数；