买专利、卖专利、专利购买、专利交易、专利出售、高企申报-提示驱动的两阶段多模态情感表示学习方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

提示驱动的两阶段多模态情感表示学习方法

面议

专利号： 2026100563305

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种提示驱动的两阶段多模态情感表示学习方法，其特征在于，具体步骤如下：步骤1、从多个公开的多模态情感分析数据集中分别采集原始视频数据，进行数据标注，并划分为训练集、验证集和测试集；

步骤2、对原始视频数据进行预处理和特征提取，得到视觉、音频和文本的向量化多模态特征表示，获取多源情绪线索；

步骤3、在训练阶段，构建提示驱动的两阶段多模态情感表示学习模型，包括情感锚点对比对齐阶段和情感强度偏移估计阶段，学习模态间的交互关系并进行情感分析；

所述情感锚点对比对齐阶段，用于增强类间可分离性并保留类内强度特征，包括：基于提示的情感锚点学习，利用情感标签的语义信息，在交叉熵损失的约束下进行训练，生成具有类别区分度的情感锚点；

联合表征与情感锚点间的对比对齐，借助情感锚点的类间区分性强化联合表征，在粗粒度上判断样本的情感类别，方法如下：步骤311、对于样本输入的视觉、语音和文本多模态特征，采用多模态表征学习方法进行融合和解耦，通过跨模态交互得到联合表征；

其中，下标分别表示文本模态，视觉模态和音频模态；

步骤312、在联合表征与情感锚点之间构建对比学习，将和联合表征属于同一情感类别的锚点视为正样本，记为，将之外的其余情感锚点视为负样本，使用对比损失作为目标函数，最大化正样本对的相似度，最小化负样本对的相似度；

其中，表示指数函数，表示余弦相似度计算，表示温度系数，用于控制类别分布平滑度；

所述情感强度偏移估计阶段，用于捕捉情绪表达的动态变化，计算样本联合表征的情感状态与情感锚点之间的细粒度偏移，预测相对于情绪极性的强度变化；

步骤4、在推理阶段，基于联合表征与各情感锚点的相似度得分，计算预测的强度偏移，进行情感类别的预测和最终情感状态的预测。

2.根据权利要求1所述的两阶段多模态情感表示学习方法，其特征在于，步骤1中，所述公开的多模态情感分析数据集有三个，包括：MOSI数据集、MOSEI数据集及IEMOCAP数据集；

所述MOSI数据集和MOSEI数据集从网络获取，由面对摄像头的个人独白评论组成，每条样本为时长不等的视频片段，针对多模态情感分析任务，将MOSI和MOSEI数据集标注连续情感状态回归值；

所述IEMOCAP数据集从可控实验室环境下采集，每条样本为双人对话视频片段，针对多模态情绪识别任务，将数据集IEMOCAP标注离散情感类别。

3.根据权利要求1所述的两阶段多模态情感表示学习方法，其特征在于，步骤2中，所述预处理和特征提取，包括如下子步骤：步骤201、从视频数据中分解得到原始的多模态特征，包括：视觉的图像帧序列信号、音频的脉冲波形信号和文本语句；

步骤202、设置多模态情感分析的MSA任务及多模态情绪识别的MER任务；所述MSA任务根据个体样本的视觉的图像帧序列信号、音频的脉冲波形信号和文本语句得到连续的情感状态值，数值正负表示积极/消极，数值绝对大小表示情感强度；所述MER任务根据个体样本的视觉的图像帧序列信号、音频的脉冲波形信号和文本语句得到离散的情绪类别；

步骤203、对各模态数据分别提取向量化特征：

对于视频信号，采用Facet工具包进行视觉特征提取，包括：检测和量化面部动作单元、面部关键点、头部姿态以及表情相关特征；

对于语音信号，使用COVAREP工具包提取低层次描述符作为音频特征，建模语音信号中的情绪动态变化；包括：梅尔倒谱系数，用于反映语音频谱包络；基频特征，用于描述声带振动频率；谱包络，用于表示语音频谱的平滑形状；语音质量特征，包括抖动、颤动，用于反映声音稳定性；

对于视频中个体的语言表达，在MSA任务中，采用预训练语言模型BERT提取文本特征；

在MER任务中，采用GloVe作为文本特征表示方法；得到深层语义特征表示。

4.根据权利要求3所述的两阶段多模态情感表示学习方法，其特征在于，步骤3中，所述情感锚点对比对齐阶段，利用情感标签的语义信息，标注连续情感状态回归值，增强样本表征在粗粒度情感类别上的表达能力；

对于MSA任务，将连续标签四舍五入进行量化，得到七种粗粒度的情感类别标签，包括：高度消极、消极、轻微消极、中性、轻微积极、积极、高度积极；

对于MER任务，使用高兴、悲伤、愤怒、中性四种情感类别标签。

5.根据权利要求4所述的两阶段多模态情感表示学习方法，其特征在于，步骤3中，所述基于提示的情感锚点学习，方法如下：步骤301、基于样本的情感类别标签，构造提示模板，表示情感类别的核心语义信息；

步骤302、利用预训练大语言模型，将提示模板进行编码，得到包含通用知识的类别语义嵌入，并映射至特定维度：；

其中，是线性层，表示线性层的可学习参数，表示预训练大语言模型的参数；

步骤303 、对各情感类别对应的语义嵌入进行训练，在交叉熵损失的约束下训练线性映射层；