1.一种基于多模态融合网络的多模态情感分析方法,其特征在于,包括如下步骤:
S1、获取待处理的情感信息模态,对所述待处理的情感信息模态进行数据提取,所述情感信息模态包括文本模态、音频模态和视频模态;
S2、将数据提取后的情感信息模态输入至训练后的多模态情感分析模型,输出得到所述待处理的情感信息模态的情感预测结果;所述多模态情感分析模型包括多尺度特征提取模块、文本多模态特征融合模块和多模态情感预测模块;
所述多模态情感分析模型的训练步骤如下:
S201、所述多模态情感分析模型将输入的数据提取后的情感信息模态作为多尺度特征提取模块的输入,输出得到具有文本模态、音频模态和视频模态的多尺度特征,并输入至文本多模态特征融合模块;
S202、所述文本多模态特征融合模块对输入的不同模态多尺度特征通过以文本模态为核心的文本门控单元,以融合生成得到融合后的特征,设计具有多模态通道注意力机制的文本通道注意力Transformer单元,将所述融合后的特征作为所述文本通道注意力Transformer单元的输入,输出得到模态融合特征,并作为多模态情感预测模块的输入;
S203、所述多模态情感预测模块将输入的模态融合特征进行连接,得到融合特征,根据所述融合特征得到待处理的情感信息模态的情感预测结果;
S204、以最小化由模型基本损失函数和无监督对比学习损失函数构建的总损失函数为目标,对多模态情感分析模型的模型参数进行优化更新,进而完成对多模态情感分析模型的训练;
S205、重复步骤S201至步骤S204,进行迭代训练,直至多模态情感分析模型收敛或达到预设迭代次数。
2.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,所述数据提取具体包括:对所述文本模态进行数据提取的步骤,包括:利用预训练的BERT模型对输入的文本序列进行特征提取,得到文本模态的全局表示和局部表示,所述全局表示为通过特殊标记[CLS]标记的对应向量,将BERT模型最后一层对应的[CLS]标记向量作为文本序列的综合表示 对文本模态进行数据提取的表达式如下:式中; 表示BERT模型提取得到的文本特征, lt是
文本序列的最大长度,dt表示文本序列综合表示的维度, 表示文本模态在BERT中的可学习参数;
对所述音频模态进行数据提取的步骤,包括:利用预训练的COVAREP模型对音频模态进行特征提取,得到初始向量特征Ia,然后,对所述初始向量特征Ia通过sLSTM模型,以深入捕捉其时间序列中的特征,最后,选择end‑state隐藏向量作为音频序列的综合表示,对音频模态进行数据提取的表达式如下:式中, 表示预训练的COVAREP模型提取得到的音频特征,
la表示音频的序列长度,da表示音频序列综合表示的维度, 表示音频
模态在sLSTM模型中的可学习参数;
对所述视频模态进行数据提取的步骤,包括:利用预训练的FACET模型对视频模态进行特征提取,得到初始向量Iv,然后,对所述初始向量特征Iv通过sLSTM模型,以深入捕捉其时间序列中的特征,最后,选择end‑state隐藏向量作为视频序列的综合表示,对视频模态进行数据提取的表达式如下:式中, 表示预训练的FACET模型提取得到的视频特征, lv表示
视频的序列长度,dv表示视频序列综合表示的维度, 表示视频模态在sLSTM中的可学习参数。
3.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,步骤S201中,所述多尺度特征提取模块包括并联的4个卷积块和通道注意力单元,其中,所述并联的4个卷积块分别为第一卷积块、第二卷积块、第三卷积块和第四卷积块,所述第二卷积块与第三卷积块的并联结果与通道注意力单元级联;
所述第一卷积块为1×1卷积层,第二卷积块为3×3卷积层,第三卷积块为5×5卷积层,第四卷积块为全局池化层;并联的第二卷积块和第三卷积块的输出作为通道注意力单元的输入,通道注意力单元的输出再与第一卷积块和第四卷积块的输出进行相加运算,得到不同模态在多尺度特征提取模块的整体输出。
4.根据权利要求3所述的基于多模态融合网络的多模态情感分析方法,其特征在于,所述通道注意力单元包括级联的全局平均池化操作、激励操作和缩放操作;所述通道注意力单元中,将输入的第二卷积块和第三卷积块的输出使用全局平均池化操作沿序列长度压缩,以计算全局空间信息,然后,执行激励操作为每个特征通道生成权重,最后,通过缩放操作和权重参数来控制不同通道的输出,从而输出得到经过通道注意力单元的特征;
所述通道注意力单元的处理过程表示为:
η=Excitation(Z,W)=σ(g(Z,W))=σ(W2ReLU(W1Z));
X′sn=Scale(Xsn,η)=Xsn×η;
式中,Z表示全局空间信息,Squeeze(·)表示全局平均池化操作,Xsn表示 经过第二卷积块和第三卷积块的输出特征, 表示不同模态经过数据提取得到的特征,s∈{a,t,v},n∈{2,3},η表示权重参数,Excitation(·,w)表示激励操作,g(·)非线性函数,σ(·)表示sigmoid函数,W1和W2均表示全连接层的权重矩阵,ReLU表示激活函数,X'vn表示经过通道注意力增强的输出特征,Scale(·)表示缩放操作;
则所述多尺度特征提取模块的处理过程表示为:
式中,Xa表示音频模态多尺度特征,Xt表示文本模态多尺度特征,Xv表示视频模态多尺度特征,Concat(·)表示连接,Xa1、Xt1、Xv1分别表示音频、文本和视频模态经过第一卷积块的输出,Xa4、Xt4、Xv4分别表示音频、文本和视频模态经过第四卷积块的输出。
5.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,步骤S202中,所述文本门控单元包括音频文本门控子单元和视频文本门控子单元,所述音频文本门控子单元与所述视频文本门控子单元结构相同,包括级联的卷积归一化单元、卷积激活单元、归一化激活单元和Sigmoid激活函数层,其中,所述卷积归一化单元包括级联的第一1×1卷积层和第一批量归一化层,所述卷积激活单元包括级联的第一ReLU激活函数层和第二1×1卷积层,归一化激活单元包括级联的第二批量归一化层和第二ReLU激活函数层;
所述视频文本门控子单元中,将输入的文本模态多尺度特征与视频模态多尺度特征,分别通过卷积归一化单元进行处理,并将处理后的特征作相加运算,得到融合特征图,然后,将融合特征图通过卷积激活单元,得到单通道特征映射,之后,再通过归一化激活单元进行处理,接着,将处理后的单通道特征图通过Sigmoid激活函数层转换为注意力系数,最后,将作为输入的视频模态多尺度特征与Sigmoid激活函数层的输出进行元素相乘运算,得到作为视频文本门控子单元输出的特征;
所述音频文本门控子单元中,将输入的文本模态多尺度特征与音频模态多尺度特征作为音频文本门控子单元的输入,分别通过卷积归一化单元进行处理,并将处理后的特征作相加运算,得到融合特征图,然后,将融合特征图通过卷积激活单元,得到单通道特征映射,之后,再通过归一化激活单元进行处理,接着,将处理后的单通道特征图通过Sigmoid激活函数层转换为注意力系数,最后,将作为输入的视频模态多尺度特征与Sigmoid激活函数层的输出进行元素相乘运算,得到作为音频文本门控子单元输出的特征;
所述视频文本门控子单元输出的特征与音频文本门控子单元输出的特征作为文本门控单元的整体输出特征;
所述视频文本门控子单元处理过程表示为:
X′tv=BN(Conv1×1(Xt))+BN(Conv1×1(Xv));
Xtv=Xv⊙σ(δ(BN(Conv1×1(δ(X′tv)))));
式中,X'tv表示文本模态多尺度特征和视频模态多尺度特征的融合特征图,BN(·)表示批量归一化,Conv1×1(·)表示一维卷积层,Xt表示文本模态多尺度特征,Xv表示视频模态多尺度特征,Xtv表示在视频文本门控子单元输出的视频模态多尺度特征和文本模态多尺度特征融合后的特征,⊙表示元素乘法,δ(·)表示ReLU激活函数;
所述音频文本门控子单元处理过程表示为:
X′ta=BN(Conv1×1(Xt))+BN(Conv1×1(Xa));
Xta=Xv⊙σ(δ(BN(Conv1×1(δ(X′ta)))));
式中,X'ta表示文本模态多尺度特征和音频模态多尺度特征的融合特征图,Xt表示文本模态多尺度特征,Xa表示音频模态多尺度特征,Xta表示在音频文本门控子单元输出的音频模态和文本模态融合后的特征。
6.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,步骤S202中,所述具有多模态通道注意力机制的文本通道注意力Transformer单元包括N层由多模态通道注意力模块和全连接前馈模块级联构成的网络层;所述多模态通道注意力模块包括依次连接的第一层归一化层和多头注意力单元,所述全连接前馈模块包括依次连接的第二层归一化层和全连接前馈单元;
所述文本通道注意力Transformer单元中,将作为文本通道注意力Transformer单元的输入特征图作为第一层网络层中多模态通道注意力模块中的第一层归一化层的输入,所述第一层归一化层的输出作为多头注意力单元的输入,所述模态通道注意力单元的输出与所述通道注意力Transformer单元的输入进行相加运算后的输出,作为全连接前馈模块中第二层归一化层的输入,第二层归一化层的输出作为全连接前馈单元的输入,全连接前馈单元的输入与多模态通道注意力模块的输出进行相加运算,其输出作为下一层网络层的输入,经过N层前馈计算后,其输出作为文本通道注意力Transformer单元的整体输出;
其处理过程表示为:
式中, 表示在第i‑1层经过多头注意力单元处理后的文本模态和视频模态的融合特征表示, 表示在第i‑1层经过多头注意力单元处理后的文本模态和音频模态的融合特征表示, 均表示第i层的多头注意力单元,LN(·)表示层归一化层, 表示第i‑1层文本模态和视频模态的融合特征表示, 表示第i‑1层文本模态和音频模态的融合特征表示, 表示第i层的全连接前馈单元, 表示第i层经过全连接前馈模块处理后的文本模态和视频模态的融合特征表示, 表示第i层经过全连接前馈模块处理后的文本模态和音频模态的融合特征表示,TCAT(·)表示文本通道注意力Transformer单元,Xta表示音频文本门控子单元输出的音频模态和文本模态融合后的特征,Xa表示音频模态多尺度特征,Xv表示视频模态多尺度特征, 表示文本模态和音频模态经过文本通道注意力Transformer单元融合后的模态融合特征, 表示文本模态和视频模态经过文本通道注意力Transformer单元融合后的模态融合特征。
7.根据权利要求6所述的基于多模态融合网络的多模态情感分析方法,其特征在于,所述多头注意力单元将经过文本门控单元处理后得到的融合后的特征和多尺度特征投影到查询、键、值向量空间中,然后,在通道维度上应用缩放点积注意力机制,生成输出向量;
所述Xtv经过多头注意力单元的处理过程表示为:
式中,Ytv表示Xtv经过注意力机制处理后的输出,Attention(·)表示注意力机制,Qtv表示Xtv的查询矩阵,Kv表示Xv的键矩阵,Vv表示Xv的值矩阵,Softmax(·)表示Softmax函数,表示查询矩阵的权重,WK表示键矩阵的权重, 表示值矩阵的权重, 表示视频模态的多头注意力单元中的每个头的输出,W0表示多头注意力单元拼接后输出的权重矩阵;
所述Xta经过多头注意力单元的处理过程表示为:
式中,Yta表示Xta经过注意力机制处理后的输出,Qta表示Xta的查询矩阵,Ka表示Xa的键矩阵,Va表示Xa的值矩阵, 表示值矩阵的权重, 表示音频模态的多头注意力单元中的每个头的输出。
8.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,步骤S203中,所述多模态情感预测模块的处理过程包括:将作为输入的音频和文本模态融合特征与视频和文本模态融合特征进行连接,然后通过激活函数的第一线性层将特征映射到一个较低维的特征空间,得到融合特征Xm,将融合特征经过第二线性层,以生成作为输出的情感预测结果;
其处理过程表示为:
式中,Xm表示经过第一线性层处理得到的融合特征,ReLU(·)表示激活函数, 表示第一线性层的权重参数, 表示第一线性层偏置参数, 表示情感预测结果, 表示第二线性层的权重参数, 表示第二线性层偏置参数。
9.根据权利要求1所述的基于多模态融合网络的多模态情感分析方法,其特征在于,步骤S204中,所述无监督对比学习损失函数为:式中,Point(·)表示相关性量化函数,exp(·)表示指数函数,Xs表示不同模态多尺度特征, 表示Xs的归一化特征向量, 表示参数为 的神经网络, 表示Xm与Xs之间的对比损失函数,Es表示不同模态的期望值, 表示第j个样本的融合特征, 表示第j个样本的不同模态多尺度特征, 表示无监督对比学习损失函数, 表示融合特征与文本模态之间的对比损失, 表示融合特征与音频模态之间的对比损失, 表示融合特征与视频模态之间的对比损失;
所述模型基本损失函数为:
式中, 表示模型基本损失函数,N表示训练样本的总数, 表示多模态情感分析模型对第i个样本的预测值, 表示第i个样本的真实值。
10.根据权利要求9所述的基于多模态融合网络的多模态情感分析方法,其特征在于,所述总损失函数为:式中, 表示总损失函数,α表示 的权重,β表示 的权重。