1.一种基于多任务学习与层叠跨模态融合的多模态情感分析方法,其具体执行步骤如下:步骤1)将原始视频拆剪为视频片段,标记该视频片段所对应的情感标签,再从该视频片段中提取可被模型识别的文本、音频与视觉特征;所述情感标签分为积极、中性以及消极三类;
步骤2)将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块,该模块内包含三个长短期记忆网络,以进行模态内交互,得到具有上下文语义信息的单模态隐藏层特征,再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块,进行特征融合与提取,得到多模态高层特征;
步骤3)将步骤2所得的多模态高层特征与单模态高层特征进行拼接后,通过多层感知机,输出最终的情感分类结果,计算多任务损失值后根据算法动态调整不同任务的损失权重,迭代优化模型;所述不同任务包括文本情感预测、音频情感预测、视觉情感预测以及整体情感预测。
2.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤1包括如下步骤:步骤1a、根据原始视频中说话人的话语间隔,把视频切割为5‑10秒的视频片段,每个视频片段包含一句完整的话语,并对该话语进行多模态情感标注;所述多模态情感标注包括文本、音频、视觉以及整体情感;
步骤1b、将视频片段中的字幕转录为文本,并利用BERT词嵌入将文本转换为词向量XT∈length×dimR ,并设置句子最大长度为39,词嵌入维度为762;
步骤1c、对于音频片段,使用LibROSA音频工具包提取33维帧级音频特征,包括一维对数基频,20维梅尔频率倒谱系数和12维常数q色谱,这些特征均与情绪和说话语气相关;
步骤1d、从30Hz的视频片段中提取图像帧,并使用MTCNN人脸检测算法提取对齐的人脸,然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征,包括面部地标、面部动作单元。
3.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2包括如下分步骤:步骤2a、为了使单模态特征在跨模态融合之前能学习其上下文语境信息,采用长短期记忆网络来建模单模态内部交互;即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取,得到单模态隐藏层特征,即文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征;
步骤2b、将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合;其中,层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络,门控跨模态transformer网络用于将输入的两个模态特征进行融合;
层叠跨模态特征融合模块的具体步骤是:先将文本模态隐藏层特征作为主模态,音频隐藏层特征作为辅助模态,并输入对应模态的单模态高层特征进行引导,融合后得到新的语言特征;所述单模态高层特征包括文本高层特征、音频高层特征,所述新的语言特征包含了文本与音频信息的融合特征;
再将新得到的语言特征作为主模态,视觉特征作为辅助模态,输入对应模态高层特征进行引导,得到文本、音频、视觉三个模态的融合特征,该融合特征称为多模态融合特征。
4.根据权利要求3所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2a包括如下步骤:batch×length×dimm
步骤2a‑1、对于从步骤1中获取的文本、音频与视觉特征Xm∈R ,m∈[t,a,h h batch
v],先将其输入至长短期记忆网络,得到隐藏层特征,Xm =LSTMm(Xm),其中Xm ∈R×length×dimh;不同模态的长短期记忆网络的输入维度是不同的,但隐藏层维度统一为dimh,以适应之后的门控跨模态transformer融合;
h h
步骤2a‑2、将Xm作为门控跨模态transformer网络的输入,同时取Xm的最后一个时间步h finall final hXm,l ,将其通过多层感知机获得单模态高层特征Fm :Fm =MLP(Xm,l),其中,多层感知机由多个前馈层组成;
finall
步骤2a‑3、在训练过程中,将Fm 经过多层感知机得到单模态分类结果,在训练真实标签时计算交叉熵损失,以指导长短期记忆网络提取单模态隐藏层特征y′m=softmax(MLPfinall(Fm ));该模态所对应子任务的损失为
其中:softmax为逻辑回归函数,y′m为不同情感分类的概率,log为对数函数,N为批度,d为情感类别的数量,y′m,i,k为预测该批度中第i个样本属于类被k的概率,ym,i,k为该批度中第i个样本的真实标签。
5.根据权利要求4所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2b包括如下步骤:h h h
步骤2b‑1、对于从单模态特征提取模块中得到的单模态隐藏层特征Xt 、Xa 、Xv与单模finall finall finall h h finall finall态高层特征Ft 、Fa 、Fv ,先将Xt 、Xa 、Ft 、Fa 输入门控跨模态h
transformer网络,得到经过音频特征加强的文本特征Xl ;因为融合了音频特征,其模式更h接近于语言,所以定义该特征为语言特征;接着,将Xl的最后一个时间步特征输入至多层感finall知机,得到语言高层特征Fl ;
h h finall finall
步骤2b‑2、将Xl、Xv 、Fl 、Fv 输入门控跨模态transformer网络,得到多模态融h h h h合特征Xmulti ,取Xmulti的最后一个时间步Xmulti,l ,将Xmulti,l输入至多层感知机,得到多模finall态高层特征Fmulti 。
6.根据权利要求5所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤2b‑1所用的门控跨模态transformer网络包括如下步骤:步骤2b‑1‑1、门控跨模态transformerα→β中包含D层跨模态注意力块,对于某一层跨[i‑1] [0]模态注意力块,输入目标模态Xα ,Xβ ,定义Query为 key为Values为
其中:
是映射矩阵;
利用辅助模态β对目标模态α进行多头注意力引导,得到引导后的融合特征 其公式如下:步骤2b‑1‑2、门控跨模态transformer网络在传统跨模态transformer网络的残差连接中加入了门控机制;通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比,得到相似度similarαβ作为残差连接的门控,指导跨模态transformer融合,得到新特征最后将 输入前馈网络并进行按层规范化,得到本层跨模态融合特征 作为下一层transformer layer的目标模态输入;
公式如下:
式中, 与 为映射矩阵, 与 为步骤2b‑2中传入的高层特征, 与为对应第i维的特征值,cos()函数用于求两个输入特征的余弦相似度,LayerNorm为归一化层,fowrwad为前馈层。
7.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法,其特征在于:步骤3包括如下步骤:步骤3a、为了进一步补充特征内容,防止关键信息丢失,将步骤2b所得的多模态高层特finall finall finall征Fmulti 与单模态高层特征Ft ,Fv 进行拼接,得到补充后的多模态高层特征catFmulti ,并输入至多层感知机以进行情感分类;
其中,cat表示拼接操作;
步骤3b、计算本批情感分析的多任务损失, 其中,i∈{t,a,v,m},超参数ωi表示不同模态损失占总体损失的权重;
设置初始时wt,wa,wv的权重为1,wm的权重为0;随着训练次数的增加,逐步降低单模态任务的损失权重至0.6,逐步提升多模态任务的损失权重至1。