买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多任务学习与层叠跨模态融合的多模态情感分析方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多任务学习与层叠跨模态融合的多模态情感分析方法

面议

专利号： 2022103647643

申请人：浙江理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多任务学习与层叠跨模态融合的多模态情感分析方法，其具体执行步骤如下：步骤1)将原始视频拆剪为视频片段，标记该视频片段所对应的情感标签，再从该视频片段中提取可被模型识别的文本、音频与视觉特征；所述情感标签分为积极、中性以及消极三类；

步骤2)将步骤1)提取的文本、音频和视觉特征首先输入至单模态特征提取模块，该模块内包含三个长短期记忆网络，以进行模态内交互，得到具有上下文语义信息的单模态隐藏层特征，再将这些单模态隐藏层特征输入至层叠跨模态特征融合模块，进行特征融合与提取，得到多模态高层特征；

步骤3)将步骤2所得的多模态高层特征与单模态高层特征进行拼接后，通过多层感知机，输出最终的情感分类结果，计算多任务损失值后根据算法动态调整不同任务的损失权重，迭代优化模型；所述不同任务包括文本情感预测、音频情感预测、视觉情感预测以及整体情感预测。

2.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤1包括如下步骤：步骤1a、根据原始视频中说话人的话语间隔，把视频切割为5‑10秒的视频片段，每个视频片段包含一句完整的话语，并对该话语进行多模态情感标注；所述多模态情感标注包括文本、音频、视觉以及整体情感；

步骤1b、将视频片段中的字幕转录为文本，并利用BERT词嵌入将文本转换为词向量XT∈length×dimR ，并设置句子最大长度为39，词嵌入维度为762；

步骤1c、对于音频片段，使用LibROSA音频工具包提取33维帧级音频特征，包括一维对数基频，20维梅尔频率倒谱系数和12维常数q色谱，这些特征均与情绪和说话语气相关；

步骤1d、从30Hz的视频片段中提取图像帧，并使用MTCNN人脸检测算法提取对齐的人脸，然后使用MultiComp OpenFace2.0工具包提取多个帧级视觉特征，包括面部地标、面部动作单元。

3.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2包括如下分步骤：步骤2a、为了使单模态特征在跨模态融合之前能学习其上下文语境信息，采用长短期记忆网络来建模单模态内部交互；即将步骤1提取的文本、音频和视觉特征分别输入长短期记忆网络进行提取，得到单模态隐藏层特征，即文本隐藏层特征、音频隐藏层特征、视觉隐藏层特征；

步骤2b、将步骤2a所得单模态隐藏层特征利用层叠跨模态特征融合模块进行特征融合；其中，层叠跨模态特征融合模块包含两个层叠的门控跨模态transformer网络，门控跨模态transformer网络用于将输入的两个模态特征进行融合；

层叠跨模态特征融合模块的具体步骤是：先将文本模态隐藏层特征作为主模态，音频隐藏层特征作为辅助模态，并输入对应模态的单模态高层特征进行引导，融合后得到新的语言特征；所述单模态高层特征包括文本高层特征、音频高层特征，所述新的语言特征包含了文本与音频信息的融合特征；

再将新得到的语言特征作为主模态，视觉特征作为辅助模态，输入对应模态高层特征进行引导，得到文本、音频、视觉三个模态的融合特征，该融合特征称为多模态融合特征。

4.根据权利要求3所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2a包括如下步骤：batch×length×dimm

步骤2a‑1、对于从步骤1中获取的文本、音频与视觉特征Xm∈R ，m∈[t,a,h h batch

v]，先将其输入至长短期记忆网络，得到隐藏层特征，Xm ＝LSTMm(Xm)，其中Xm ∈R×length×dimh；不同模态的长短期记忆网络的输入维度是不同的，但隐藏层维度统一为dimh，以适应之后的门控跨模态transformer融合；

h h

步骤2a‑2、将Xm作为门控跨模态transformer网络的输入，同时取Xm的最后一个时间步h finall final hXm,l ，将其通过多层感知机获得单模态高层特征Fm ：Fm ＝MLP(Xm,l)，其中，多层感知机由多个前馈层组成；

finall

步骤2a‑3、在训练过程中，将Fm 经过多层感知机得到单模态分类结果，在训练真实标签时计算交叉熵损失，以指导长短期记忆网络提取单模态隐藏层特征y′m＝softmax(MLPfinall(Fm ))；该模态所对应子任务的损失为

其中：softmax为逻辑回归函数，y′m为不同情感分类的概率，log为对数函数，N为批度，d为情感类别的数量，y′m,i,k为预测该批度中第i个样本属于类被k的概率，ym,i,k为该批度中第i个样本的真实标签。

5.根据权利要求4所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2b包括如下步骤：h h h

步骤2b‑1、对于从单模态特征提取模块中得到的单模态隐藏层特征Xt 、Xa 、Xv与单模finall finall finall h h finall finall态高层特征Ft 、Fa 、Fv ，先将Xt 、Xa 、Ft 、Fa 输入门控跨模态h

transformer网络，得到经过音频特征加强的文本特征Xl ；因为融合了音频特征，其模式更h接近于语言，所以定义该特征为语言特征；接着，将Xl的最后一个时间步特征输入至多层感finall知机，得到语言高层特征Fl ；

h h finall finall

步骤2b‑2、将Xl、Xv 、Fl 、Fv 输入门控跨模态transformer网络，得到多模态融h h h h合特征Xmulti ，取Xmulti的最后一个时间步Xmulti,l ，将Xmulti,l输入至多层感知机，得到多模finall态高层特征Fmulti 。

6.根据权利要求5所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤2b‑1所用的门控跨模态transformer网络包括如下步骤：步骤2b‑1‑1、门控跨模态transformerα→β中包含D层跨模态注意力块，对于某一层跨[i‑1] [0]模态注意力块，输入目标模态Xα ，Xβ ，定义Query为 key为Values为

其中：

是映射矩阵；

利用辅助模态β对目标模态α进行多头注意力引导，得到引导后的融合特征其公式如下：步骤2b‑1‑2、门控跨模态transformer网络在传统跨模态transformer网络的残差连接中加入了门控机制；通过将目标模态与辅助模态所对应的高层特征进行余弦相似度对比，得到相似度similarαβ作为残差连接的门控，指导跨模态transformer融合，得到新特征最后将输入前馈网络并进行按层规范化,得到本层跨模态融合特征作为下一层transformer layer的目标模态输入；

公式如下：

式中，与为映射矩阵，与为步骤2b‑2中传入的高层特征，与为对应第i维的特征值，cos()函数用于求两个输入特征的余弦相似度，LayerNorm为归一化层，fowrwad为前馈层。

7.根据权利要求1所述的基于多任务学习与层叠跨模态融合的多模态情感分析方法，其特征在于：步骤3包括如下步骤：步骤3a、为了进一步补充特征内容，防止关键信息丢失，将步骤2b所得的多模态高层特finall finall finall征Fmulti 与单模态高层特征Ft ，Fv 进行拼接，得到补充后的多模态高层特征catFmulti ，并输入至多层感知机以进行情感分类；

其中，cat表示拼接操作；

步骤3b、计算本批情感分析的多任务损失，其中，i∈{t,a,v,m},超参数ωi表示不同模态损失占总体损失的权重；

设置初始时wt,wa,wv的权重为1，wm的权重为0；随着训练次数的增加，逐步降低单模态任务的损失权重至0.6，逐步提升多模态任务的损失权重至1。