利索能及
我要发布
收藏
专利号: 2025101588574
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于解缠表示学习的多模态情感分析方法,其特征在于,包括以下步骤:步骤1,数据收集:收集用于多模态情感分析的数据集,所选数据集应具备良好的代表性和多样性,涵盖音频、视频和文本多种模态,并且能够支持后续的训练、评估和测试过程;

所述多模态包括文本模态、音频模态和视频模态;

步骤2,提取多模态特征:针对输入的视频数据,分别提取文本、音频和视频模态特征;

利用Bert模型提取文本模型特征Ut,采用Librosa工具提取音频模型特征Ua,利用OpenFace提取面部特征,得到视频模型特征Uv,对于提取的模态特征Um,通过线性映射变换至相同的特征维度,得到对齐的模态特征Im;m∈{t,a,v};

步骤3,构建解缠表示学习网络,包括:生成模态私有特征:将模态特征Im输入至模态私有编码器,分别生成对应的模态私有特征Pt、Pa、Pv;生成模态共享特征:将模态特征Im同时输入共享编码器,生成模态共享特征Ct、Ca、Cv;对模态共享特征Ct、Ca、Cv进行全连接处理得c到全局共享特征F;

步骤4,模态解缠与对抗优化:将模态私有特征Pt、Pa、Pv和模态共享特征Ct、Ca、Cv输入模态鉴别器,优化模态鉴别器、私有编码器和共享编码器的参数;

步骤5,时间平滑约束:对音频模态私有特征Pa、音频模态共享特征Ca和视频模态私有特征Pv、视频模态共享特征Cv应用时间平滑度约束,减少连续时间段内音频与视频特征中的冗余与噪声;

步骤6,特征融合:通过文本引导机制实现音频和视频模态特征的深度融合,最终生成情感分析的融合特征Y;

1

步骤6包括:初始化一个可学习的参数张量S,然后把低尺度的文本特征 音频1

模态私有特征Pa、视频模态私有特征Pv和S共同输入到文本引导模块中,所述文本引导模块包括跨模态注意力机制,对于音频特征,文本模态特征 被用作查询向量Q,音频模态私有特征Pa分别作为键向量K和值向量V,得到 和Pa的相似度矩阵γ:其中, 和 是可学习的参数矩阵,dk表示每个注意力头的维度;

计算文本特征 和视频特征Pv的相似度矩阵β:其中 和 是可学习的参数矩阵;

2

然后生成新的融合特征S:

2

其中S, 和 为可学习的参数矩阵;

将 输入到第一个Transformer层中,通过深度建模,生成中尺度文本特征1

其中,E表示第一个Transformer层, 是第一个Transformer层的参数;

2

接着将新的融合特征S和中尺度文本特征 输入到下一个文本引导模块中,得到融合3

特征S:

其中 和 是可学习的参数矩阵;

然后把中尺度文本特征 输入到第二个Transformer层中提取高尺度文本特征 接3

着 和S 被输入到最后一个文本引导模块中,得到音频特征和视频特征最终的融合特征4

S:

2

其中,E表示第二个Transformer层, 是第二个Transformer层的参数,是可学习的参数矩阵;

通过前馈网络FFN进一步建模,得到最终的融合特征:其中,x∈{1,2,3}, 是可学习的参数矩阵, 是经过跨模态自注意力机制计算后的输出, 是 进行归一化后的输出, 表示不同尺度的文本特征;

4

x=1时, 是低尺度文本特征 与融合特征S在跨模态注意力机制中的4

可学习的参数矩阵, 是 与S经过跨模态自注意力机制计算后的输出, 是 进行归一化后的输出;

4

x=2时, 是中尺度文本特征 与融合特征S在跨模态注意力机制中的4

可学习的参数矩阵, 是 与S经过跨模态自注意力机制计算后的输出, 是 进行归一化后的输出;

4

x=3时, 是高尺度文本特征 与融合特征S在跨模态注意力机制中的4

可学习的参数矩阵, 是 与S经过跨模态自注意力机制计算后的输出, 是 进行归一化后的输出;

1 2 3

LayerNorm表示归一化,FFN表示前馈网络;F、F 、F 分别代表了在低、中、高尺度下生成的多模态融合特征;

x c

将不同尺度下的融合特征F和共享模态特征F通过门控机制进行加权融合:j j

G=Wj·F,

j 1 2 3 c

其中,j∈{1,2,3,c},即F ∈{F ,F ,F ,F},Wj、 和 是可学习的权j j

重矩阵,G 是F经过权重矩阵Wj变换后的结果,SumPool指求和池化,k为池化窗口的大小,j是G 经过求和池化后的结果, 表示 进行L2归一化后的结果, 表示 的二

1 1 1 1

范数;当j=1时,W1是F的可学习的权重矩阵,G是F经过权重矩阵W1变换后的结果, 是G经过求和池化后的结果, 表示 进行L2归一化后的结果;

j

把输入的F与权重矩阵逐元素相乘,然后对经过逐元素相乘的矩阵进行求和池化,得到然后通过L2归一化确保尺度相同,最后,进行线性映射加权求和,得到最终的融合特征Y;

步骤7,模型优化与输出:将融合特征Y输入情感分析模块,结合情感分类或回归任务,生成情感预测结果;同时,通过训练阶段的损失函数优化情感分析模块。

2.根据权利要求1所述的方法,其特征在于,步骤2包括:针对输入的视频数据,利用Bert模型提取文本模型特征Ut,采用Librosa工具提取音频模型特征Ua,利用OpenFace提取面部特征,得到视频模型特征Uv:Ut=BERT(T),

Ua=Librosa(A),

Ut=OpenFace(V),

记为特征集合D={Ut,Ua,Uv};

对各模态特征Um进行线性映射,统一到相同的特征维度,从而得到对齐后的特征表示Im:Im=Wm·Um+bm,

其中m表示模态,m∈{t,a,v},t为文本,a为音频,v为视频,Wm和bm分别表示线性映射的权重矩阵和偏置矩阵。

3.根据权利要求2所述的方法,其特征在于,步骤3包括:模态特征Im被输入到模态私有编码器,分别生成文本、音频和视频模态私有特征Pt、Pa、Pv,模态特征Im同时被输入到共享编码器,分别生成文本、音频和视频模态共享特征Ct、Ca、Cv,其中,私有编码器通过独立的三个编码器对每种模态数据进行特征提取,共享编码器则对所有模态数据共享同一个编码器进行处理,数学表达式为:t a v

Pt=Ht(It,θ),Pa=Ha(Ia,θ),Pv=Hv(Iv,θ),C

Cm=HC(Im,θ),

t a v

其中,θ、θ 、θ 分别是文本私有编码器Ht的参数、音频私有编码器Ha的参数、视频私有编C码器Hv的参数,θ是共享编码器HC的参数;

c

将共享特征Ct、Ca、Cv进行全连接处理得到全局共享特征F:其中, 是权重矩阵,σ(·)是激活函数。

4.根据权利要求3所述的方法,其特征在于,步骤4包括:模态鉴别器D(h;θD)是对输入数据的特征表示进行分类判断,并输出对应的概率,公式为:其中,WD、WF是模态鉴别器的权重矩阵,T表示转置,bF是偏置向量; 是模态鉴别器的输入,dm是维度的大小, 表示dm×1维的实数空间,模态鉴别器的输出D(h;θD)表示与对应三个模态t、a、v相关的概率;

使用基于反余弦的交叉熵损失函数,具体定义为:其中,ym是输入样本的目标模态,Wm是模态m的权重向量, 是目标模态ym的权重向量;

是输入特征向量,θm表示输入特征向量与模态m的夹角, 表示输入特征向量与目标模态ym的夹角,eam表示交叉熵损失;α是缩放因子,τ是边际参数;e是自然常数;

对每个标签加权求和,计算整体对抗损失:其中,n是批量大小,lam(Cm,ym)表示模态共享特征Cm与目标模态ym之间的交叉熵损失;

lCam是共享特征的对抗损失,lPam是私有特征的对抗损失;lam(Pm,ym)表示模态私有特征Pm与目标模态ym之间的交叉熵损失。

5.根据权利要求4所述的方法,其特征在于,步骤5包括:基于KL散度的时间平滑度损失,衡量音频和视频模态在连续时间上的变化特性,KL散度定义为:其中p、q是两个概率分布,pg和qg分别是p、q在第g位置上的值;KL(p‖q)表示事件pg在分布p下的概率与分布q下概率的差异;

对于音频特征,计算连续三帧音频特征的KL散度,公式为:其中,Pa[i]和Ca[i]分别表示第i帧音频模态私有特征和第i帧音频模态共享特征,mean是softmax处理后的结果进行平均化操作, 表示音频特征在第i帧的私有特征通过softmax操作后的平均值; 表示音频特征在第i帧的共享特征通过softmax操作后的平均值;b表示帧数, 是音频特征在第i帧的私有特征的滑动平均值, 是音频特征在第i帧的共享特征的滑动平均值, ekla是音频特征的时间平滑度损失;

对于视频特征的KL散度,公式为:

其中,Pv[i]和Cv[i]分别表示第i帧视频模态私有特征和第i帧视频模态共享特征, 表示视频特征在第i帧的私有特征通过softmax操作后的平均值, 表示视频特征在第i帧的共享特征通过softmax操作后的平均值; 是视频特征在第i帧的私有特征的滑动平均值,是视频特征在第i帧的共享特征的滑动平均值,lklv是视频特征的时间平滑度损失;

构建一致性损失函数,公式为:

其中, 和 分别表示视频模态在连续帧间的特征差异和音频模态在连续帧间的特征差异,ΔMi是第i帧下 和 的平均值,即 lklav是一致性损失;

通过如下公式计算整体的时间平滑度损失ltsc:ltsc=lkla+lklv+lklav。

6.根据权利要求5所述的方法,其特征在于,步骤7包括:将融合特征Y作为输入,传递给多层感知器MLP,通过非线性变换输出情感预测结果采用均方误差MSE作为任务学习的损失函数ltask,计算公式为:z

其中,y 是第z个样本的情感标签, 是情感分析模块的预测结果,Nt是数据集的样本数。

7.根据权利要求6所述的方法,其特征在于,步骤7中,最终的总损失函数lall为:lall=ltask+λlCam+δlPam+ψltsc,其中,λ、δ和ψ为超参数。

8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。

9.一种存储介质,其特征在于,存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,执行如权利要求1至7中任一项所述的方法的步骤。