利索能及
我要发布
收藏
专利号: 2021103042646
申请人: 华南师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模态情感分类方法,其特征在于,包括步骤:获取目标图像的特征向量表示和目标文本的词向量表示;其中,所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示;

将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型,得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示;其中,所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示,所述目标图像的第二特征表示为去除了冗余信息的特征表示;

将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型,得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示;

将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型,得到多模态数据表示;

对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接,得到目标多模态数据表示;

根据所述目标多模态数据表示和预设的归一化分类模型,得到所述目标词在若干个所述属性上的情感分类结果。

2.根据权利要求1所述的多模态情感分类方法,其特征在于,所述获取目标图像的特征向量表示和目标文本的词向量表示,包括步骤:获取所述目标图像和所述目标文本;其中,所述目标文本中包括所述上下文、所述目标词和所述目标词对应的若干个属性;

将所述上下文、所述目标词和若干个所述属性输入至预设的词嵌入网络,得到所述上下文的词向量表示、所述目标词的词向量表示和所述目标词对应的若干个所述属性的词向量表示;

将所述目标图像输入至预设的图像残差处理网络,得到所述目标图像的特征向量表示。

3.根据权利要求1或2所述的多模态情感分类方法,其特征在于,所述将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型,得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示,包括步骤:获取所述上下文中每个单词在所述目标文本中的位置与所述目标词在所述目标文本中的位置之间的位置偏移量,得到所述上下文的位置词向量表示;

对所述上下文的词向量表示和所述上下文的位置词向量表示进行多头自注意力编码,得到所述上下文的语义表示;

将所述目标词的词向量表示和所述属性的词向量表示拼接后输入至预设的双向GRU网络,得到所述目标词的语义表示;

将所述目标图像的特征向量表示输入至预设的胶囊网络,得到所述目标图像的第一特征表示;

对平均池化后的所述目标词的语义表示和所述目标图像的特征向量表示进行单头注意力编码,得到所述目标图像的第二特征表示。

4.根据权利要求1或2所述的多模态情感分类方法,其特征在于,所述将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型,得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示,包括步骤:

对所述上下文的语义表示和所述目标词的语义表示进行多头交互注意力编码,得到所述目标词增强的所述上下文的语义表示;

对所述目标图像的第一特征表示和所述目标词的语义表示进行多头交互注意力编码,得到所述目标词增强的所述目标图像的第一特征表示。

5.根据权利要求1或2所述的多模态情感分类方法,其特征在于,所述将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型,得到多模态数据表示,包括步骤:对所述目标词增强的所述上下文的语义表示、所述目标词增强的所述目标图像的第一特征表示和所述目标词的语义表示进行多头注意力编码,得到所述多模态数据表示。

6.根据权利要求1或2所述的多模态情感分类方法,其特征在于,所述获取目标图像的特征向量表示和目标文本的词向量表示之前,包括步骤:获取用于训练多模态情感分类模型的训练集;其中,所述多模态情感分类模型包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型;

基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述多模态情感分类模型,更新所述多模态情感分类模型内的训练参数,直至满足训练终止条件,得到训练好的多模态情感分类模型。

7.一种多模态情感分类装置,其特征在于,包括:第一获取单元,用于获取目标图像的特征向量表示和目标文本的词向量表示;其中,所述目标文本的词向量表示包括上下文的词向量表示、目标词的词向量表示以及所述目标词对应的若干个属性的词向量表示;

语义特征提取单元,用于将所述目标图像的特征向量表示、所述上下文的词向量表示、所述目标词的词向量表示和所述属性的词向量表示输入至预设的语义特征提取模型,得到所述上下文的语义表示、所述目标词的语义表示、所述目标图像的第一特征表示和所述目标图像的第二特征表示;其中,所述目标图像的第一特征表示为结合了所述目标图像内元素位置信息的特征表示,所述目标图像的第二特征表示为去除了冗余信息的特征表示;

多通道交互单元,用于将所述上下文的语义表示、所述目标词的语义表示和所述目标图像的第一特征表示输入至预设的多通道交互模型,得到目标词增强的所述上下文的语义表示和目标词增强的所述目标图像的第一特征表示;

多模态融合单元,用于将所述目标词增强的所述上下文的语义表示、所述目标词增强的目标图像的所述第一特征表示和所述目标词的语义表示输入预设的多模态融合模型,得到多模态数据表示;

池化拼接单元,用于对平均池化后的所述上下文的语义表示、平均池化后的所述多模态数据表示和所述目标图像的第二特征表示进行拼接,得到目标多模态数据表示;

分类单元,用于根据所述目标多模态数据表示和预设的归一化分类模型,得到所述目标词在若干个所述属性上的情感分类结果。

8.根据权利要求7所述的多模态情感分类装置,其特征在于,还包括:第二获取单元,用于获取用于训练多模态情感分类模型的训练集;其中,所述多模态情感分类模型包括所述语义特征提取模型、所述多通道交互模型、所述多模态融合模型和所述归一化分类模型;

训练单元,用于基于所述训练集、预设的反向传播算法和预设的损失函数迭代训练所述多模态情感分类模型,更新所述多模态情感分类模型内的训练参数,直至满足训练终止条件,得到训练好的多模态情感分类模型。

9.一种多模态情感分类设备,其特征在于,包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一所述方法的步骤。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一所述方法的步骤。