买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种多模态方面级情感分析方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种多模态方面级情感分析方法及系统

￥31200

专利号： 2024116075694

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-01-08

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态方面级情感分析方法，其特征在于，包括以下步骤：步骤1，获取多模态数据集，所述多模态数据集中的每条样本包含一组文本、一张关联图片和一个方面词序列，其中所述方面词序列为文本的子序列；使用标志替换文本中的方面词序列，并将替换后的文本与方面词序列进行连接，使用BERT的优化版RoBERTa进行编码，获得文本特征表示；在图片特征编码方面，采用快速区域卷积神经网络Faster R‑CNN获得图片的区域特征表示，然后将图片的区域特征表示通过Transformer模型以增强对区域视觉对象间的建模，从而获取图片的区域级视觉特征；

步骤2，通过跨模态Transformer层对步骤1得到的文本特征表示和区域级视觉特征之间的交互进行建模，结合文本特征和区域级视觉特征，获得图片文本关系，然后生成视觉过滤矩阵对区域级视觉特征进行去噪；

步骤3，基于跨模态注意力机制，通过对步骤2去噪后的区域级视觉特征执行单词级注意力操作，从而识别出与每个视觉区域最匹配的文本信息，在特征嵌入空间中实现对图片区域与文本单词的对齐；

步骤4，利用区域和单词自适应门去控制区域词对的特征融合，消除不匹配区域词对的影响，从而得到更有效的特征；

步骤5，结合全局信息对步骤4得到的特征进行补充，按照图片文本关系对补充后的特征进行选择，并利用门控机制对多模态特征进行过滤融合，再经过输出层得到情感分类结果；使用交叉熵损失函数计算模型损失，优化训练网络参数，得到训练完成的多模态情感分析模型；

步骤1包括：

步骤1.1，对文本模态进行编码：对于每条样本中的文本S，使用标志替换文本中的方面词序列，并将替换后的文本S与方面词序列A连接，作为文本输入T′，采用文本预训练模型RoBERTa获得文本特征表示FT：FT＝RoBERTa(T′)

其中 d是文本特征的隐藏维度，n是输入长度，表示实数空间；

步骤1.2，对图片进行编码：对于输入图片I，采用快速区域卷积神经网络Faster R‑CNN检测对象提议，根据对象类别检测概率对提议进行排序，并保留前X1个对象提议的区域表示作为图片I的区域特征表示V：V＝Faster R‑CNN(I)

其中 l是区域特征表示V的隐藏维度，m是区域个数；将区域特征表示V通过线性层转换为与文本特征相同的隐藏维度d，以实现文本和视觉特征在维度上的对齐，随后通过Transformer模型获取对象级别的区域级视觉特征FV：FV＝Transformer(WrV+br)

其中 Wr和br是可学习参数；

步骤2包括：

步骤2.1，采用跨模态Transformer层将文本特征表示FT作为查询，并将区域级视觉特征FV作为键和值，如下所示：F′V＝CrossModalTransformer(FT,FV,FV)其中是文本中每个词相关的区域级视觉特征；

所述跨模态Transformer层具体实现如下：

Q＝WqFT

K＝WkFV

V′＝WVFV

其中Q、K、V′分别为线性变换后的查询向量、键向量、值向量；Wq、Wk、WV是可学习参数；k1是缩放因子， Cross Modal Transformer表示跨模态操作；T表示矩阵转置；

对文本中每个词相关的区域级视觉特征F′V使用最大池化操作得到f′V，以得到最重要的特征用于关系分类；基于f′V，使用Sigmoid函数得到图片文本关系预测概率，具体公式为：f′V＝max‑pooling(F′V)

P(c)＝Sigmoid(Wcf′V+bc)

其中f′V表示与图片文本关系任务相关的最显著特征， max‑pooling是最大池化操作；c表示图片文本关系的类别，P(c)是模型预测样本的图片文本关系的类别为c的概率，P(c)为一个在[0,1]范围内的标量，Wc和bc是可学习参数；

采用交叉熵损失来优化图片文本关系任务：

其中是图片文本关系任务的损失函数，M是多模态数据集的样本数，c 表示第u个样u本的图片文本关系分类的实际类别，P(c)表示模型预测第u个样本的图片文本关系类别为uc的概率；

使用图片文本关系预测概率分数P(c)构造一个视觉掩码矩阵视觉掩码矩阵R中的所有元素都等于图片文本关系预测概率分数P(c)，通过视觉掩码矩阵R获得去噪后的区域级视觉特征F″V：F″V＝R⊙F′V

其中 ⊙为逐元素乘法。

2.根据权利要求1所述的方法，其特征在于，步骤3包括：步骤3.1，给定去噪后的区域级视觉特征集合F″V＝{v1…vn}和文本特征表示集合FT＝{t1…tn}，其中vn表示去噪后的第n个区域级视觉特征，tn表示文本经过分词后的第n个单词的特征；计算区域视觉和单词级文本注意矩阵U，将注意矩阵U缩放和归一化为区域单词注意矩阵使用区域单词注意矩阵聚合关于每个视觉区域所匹配的所有单词特征，公式为：T

U＝(WvF″V)(WtFT)

其中Wv和Wt是可学习参数，Uij表示第i个视觉区域与第j个词之间的关系， k2是缩放因子，矩阵的第i行表示第i个视觉区域所匹配的文本特征；

步骤3.2，对提取的矩阵H进行如下处理：

O＝(Wh1H)(Wh2H)

其中Wh1和Wh2是可学习的参数；O表示区域单词对之间的关系分数矩阵，表示矩阵O进行缩放和归一化之后的矩阵，k3是缩放因子，表示进一步提取后的区域单词对特征。

3.根据权利要求2所述的方法，其特征在于，步骤4包括：步骤4.1，给定去噪后的区域级视觉特征F″V＝{v1…vn}和区域单词对特征G＝{g1…gn}，计算自适应门去评估对齐匹配的程度：ni＝sigmoid(vi⊙gi)

ei＝bi⊙[vi,gi]

di＝ReLU(Wdei)

fi＝di+vi

其中gi表示第i个区域单词对特征，vi代表第i个区域级视觉特征，bi表示衡量区域单词对特征gi对齐程度的自适应门控值；ei是融合后的特征；Wd是可学习的参数，ReLU是线性整流函数；最终得到融合后的特征F＝{f1,…,fn}，fi表示修正融合后的第i个区域单词对特征，隐含了区域和单词对之间的对齐信息。

4.根据权利要求3所述的方法，其特征在于，步骤5包括：步骤5.1，将去噪后的区域级视觉特征F″V、文本特征表示FT与步骤4得到的特征F分别进行连接，将连接后的特征经过全连接层得到线性变换后的特征，公式为：Z1＝ReLU(W1[F⊕F″V]+b1)

Z2＝ReLU(W2[F⊕FT]+b2)

其中Z1表示区域级视觉特征F″V与F结合后的融合特征，Z2表示文本特征FT与F结合后的融合特征，W1、W2、b1、b2是可学习的参数，⊕表示连接操作；

第一种情况，如果图片文本关系的预测概率表明图片和文本之间的关系为无关系的概率大于有关系的概率，则先计算Z1和Z2的关系矩阵，然后使用经过文本特征补充的Z2加上与关系矩阵相乘的Z1，作为最终的特征集合：α＝sigmoid(W3Z1+W4Z2)

F1＝Z2+α⊙Z1

其中α表示图片文本无关系情况下Z1和Z2的关系矩阵；F1表示图片文本无关系情况下融合后的最终特征集合，W3、W4为可学习参数；

第二种情况，如果图片文本关系的预测概率表明图片和文本之间的关系为有关系的概率大于无关系的概率，则先计算Z1和Z2的关系矩阵，然后使用经过区域级视觉特征补充的Z1加上与关系矩阵相乘的Z2，作为最终特征集合：β＝sigmoid(W5Z1+W6Z2)

F2＝Z1+β⊙Z2

其中β分别表示图片文本有关系情况下Z1和Z2的关系矩阵，F2表示图片文本有关系情况下融合后的最终特征集合，W5、W6为可学习参数；

步骤5.2，将步骤5.1提取后的最终特征集合F1或F2视为特征集合Z，将特征集合Z输入到softmax层，预测最终的情感：P(y)＝Softmax(WyZ+b)

其中P(y)是预测情感类别为y的概率，Wy，b为可学习的参数；

使用交叉熵损失优化基于方面词的多模态情感分析任务，通过情感监督表示来实现：q

其中是多模态方面级情感分类任务的损失函数，N是多模态数据集的样本数，y 表q q示第q个样本情感分类的实际类别，P(y)表示模型预测第q个样本的情感分类类别为y 的概率；

然后得到最终的损失函数

5.根据权利要求4所述的方法，其特征在于，步骤5.2中，最终的损失函数表示为：其中λ1为超参数。

6.一种基于如权利要求1～5任一项所述的方法实现的多模态方面级情感分析系统，其特征在于，包括：图片文本关系模块，获取多模态数据集，所述多模态数据集中的每条样本包含一组文本、一张关联图片和一个方面词序列，其中所述方面词序列为文本的子序列；使用标志替换文本中的方面词序列，并将替换后的文本与方面词序列进行连接，使用BERT的优化版RoBERTa进行编码，获得文本特征表示；在图片特征编码方面，采用快速区域卷积神经网络Faster R‑CNN获得图片的区域特征表示，然后将图片的区域特征表示通过Transformer模型以增强对区域视觉对象间的建模，从而获取图片的区域级视觉特征；通过跨模态Transformer层对文本特征表示和区域级视觉特征之间的交互进行建模，结合文本特征和区域级视觉特征，获得图片文本关系，然后生成视觉过滤矩阵对区域级视觉特征进行去噪；

跨模态对齐修正模块，基于跨模态注意力机制，通过对去噪后的区域级视觉特征执行单词级注意力操作，从而识别出与每个视觉区域最匹配的文本信息，在特征嵌入空间中实现对图片区域与文本单词的对齐；

特征融合模块，结合全局信息对跨模态对齐修正模块得到的特征进行补充，按照图片文本关系对补充后的特征进行选择，并利用门控机制对多模态特征进行过滤融合，再经过输出层得到情感分类结果。

7.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的方法的步骤。

8.一种存储介质，其特征在于，存储有计算机程序或指令，当所述计算机程序或指令在计算机上运行时，执行如权利要求1至5中任一项所述的方法的步骤。