1.一种提示驱动的两阶段多模态情感表示学习方法,其特征在于,具体步骤如下:步骤1、从多个公开的多模态情感分析数据集中分别采集原始视频数据,进行数据标注,并划分为训练集、验证集和测试集;
步骤2、对原始视频数据进行预处理和特征提取,得到视觉、音频和文本的向量化多模态特征表示,获取多源情绪线索;
步骤3、在训练阶段,构建提示驱动的两阶段多模态情感表示学习模型,包括情感锚点对比对齐阶段和情感强度偏移估计阶段,学习模态间的交互关系并进行情感分析;
所述情感锚点对比对齐阶段,用于增强类间可分离性并保留类内强度特征,包括:基于提示的情感锚点学习,利用情感标签的语义信息,在交叉熵损失的约束下进行训练,生成具有类别区分度的情感锚点;
联合表征与情感锚点间的对比对齐,借助情感锚点的类间区分性强化联合表征,在粗粒度上判断样本的情感类别,方法如下:步骤311、对于样本输入的视觉、语音和文本多模态特征 ,采用多模态表征学习方法进行融合和解耦,通过跨模态交互得到联合表征 ;
其中,下标 分别表示文本模态,视觉模态和音频模态;
步骤312、在联合表征与情感锚点之间构建对比学习,将和联合表征 属于同一情感类别的锚点 视为正样本,记为 ,将 之外的其余情感锚点 视为负样本,使用对比损失 作为目标函数,最大化正样本对的相似度,最小化负样本对的相似度;
其中, 表示指数函数, 表示余弦相似度计算,表示温度系数,用于控制类别分布平滑度;
所述情感强度偏移估计阶段,用于捕捉情绪表达的动态变化,计算样本联合表征的情感状态与情感锚点之间的细粒度偏移,预测相对于情绪极性的强度变化;
步骤4、在推理阶段,基于联合表征与各情感锚点的相似度得分,计算预测的强度偏移,进行情感类别的预测和最终情感状态的预测。
2.根据权利要求1所述的两阶段多模态情感表示学习方法,其特征在于,步骤1中,所述公开的多模态情感分析数据集有三个,包括:MOSI数据集、MOSEI数据集及IEMOCAP数据集;
所述MOSI数据集和MOSEI数据集从网络获取,由面对摄像头的个人独白评论组成,每条样本为时长不等的视频片段,针对多模态情感分析任务,将MOSI和MOSEI数据集标注连续情感状态回归值;
所述IEMOCAP数据集从可控实验室环境下采集,每条样本为双人对话视频片段,针对多模态情绪识别任务,将数据集IEMOCAP标注离散情感类别。
3.根据权利要求1所述的两阶段多模态情感表示学习方法,其特征在于,步骤2中,所述预处理和特征提取,包括如下子步骤:步骤201、从视频数据中分解得到原始的多模态特征,包括:视觉的图像帧序列信号、音频的脉冲波形信号和文本语句;
步骤202、设置多模态情感分析的MSA任务及多模态情绪识别的MER任务;所述MSA任务根据个体样本的视觉的图像帧序列信号、音频的脉冲波形信号和文本语句得到连续的情感状态值,数值正负表示积极/消极,数值绝对大小表示情感强度;所述MER任务根据个体样本的视觉的图像帧序列信号、音频的脉冲波形信号和文本语句得到离散的情绪类别;
步骤203、对各模态数据分别提取向量化特征:
对于视频信号,采用Facet工具包进行视觉特征提取,包括:检测和量化面部动作单元、面部关键点、头部姿态以及表情相关特征;
对于语音信号,使用COVAREP工具包提取低层次描述符作为音频特征,建模语音信号中的情绪动态变化;包括:梅尔倒谱系数,用于反映语音频谱包络;基频特征,用于描述声带振动频率;谱包络,用于表示语音频谱的平滑形状;语音质量特征,包括抖动、颤动,用于反映声音稳定性;
对于视频中个体的语言表达,在MSA任务中,采用预训练语言模型BERT提取文本特征;
在MER任务中,采用GloVe作为文本特征表示方法;得到深层语义特征表示。
4.根据权利要求3所述的两阶段多模态情感表示学习方法,其特征在于,步骤3中,所述情感锚点对比对齐阶段,利用情感标签的语义信息,标注连续情感状态回归值,增强样本表征在粗粒度情感类别上的表达能力;
对于MSA任务,将连续标签四舍五入进行量化,得到七种粗粒度的情感类别标签,包括:高度消极、消极、轻微消极、中性、轻微积极、积极、高度积极;
对于MER任务,使用高兴、悲伤、愤怒、中性四种情感类别标签。
5.根据权利要求4所述的两阶段多模态情感表示学习方法,其特征在于,步骤3中,所述基于提示的情感锚点学习,方法如下:步骤301、基于样本的情感类别标签,构造提示模板 ,表示情感类别的核心语义信息;
步骤302、利用预训练大语言模型 ,将提示模板 进行编码,得到包含通用知识的类别语义嵌入 ,并映射至特定维度: ;
其中, 是线性层, 表示线性层的可学习参数, 表示预训练大语言模型 的参数;
步骤303 、对各情感类别对应的语义嵌入进行训练,在交叉熵损 失的约束下训练线性映射层;
其中, 和 分别表示第 个样本的真实类别和预测类别;
步骤304、将情感类别的嵌入表示作为对应 个类别的情感锚点特征表示 , 为生成的情感锚点,用于反映类别特性。
6.根据权利要求5所述的两阶段多模态情感表示学习方法,其特征在于,步骤3中,所述情感强度偏移估计阶段用于MSA任务,具体处理如下:步骤321、计算联合表征 与其真实类别标签对应锚点 之间的差异特征 :;
步骤322、使用非线性关系建模差异特征 和情感强度偏移 之间的细微情感表达关联 :;
其中, 和 表示线性层的参数;
步骤323、将真实类别标签与本阶段预测的强度偏移结合,得到模型在训练阶段最终预测的情感状态 :;
其中, 表示量化后的类别标签。
7.根据权利要求6所述的两阶段多模态情感表示学习方法,其特征在于,步骤4中:对于MER任务,计算样本的联合表征 与各锚点 的余弦相似度得分,选取得分最高的锚点对应的类别作为预测结果 :;
对于MSA任务,计算样本的联合表征 与各锚点 的相似度得分,选取得分最高的锚点对应的类别作为第一阶段情感类别的预测结果 ;根据样本表征 和相似度最高的锚点计算差异特征 ,通过非线性映射得到预测的强度偏移 ,得到最终模型预测的情感状态+ 。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的两阶段多模态情感表示学习方法。
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至7中任一项所述的两阶段多模态情感表示学习方法中的步骤。