1.一种多模态对话情感识别方法,其特征是,包括:构建多模态交互式对话列表U;
基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表 中的一个视频片段 上分别得到表情时序特征 和姿态时序特征 ;
基于人脸姿态注意力模块FPA对表情时序特征 和姿态时序特征 进行融合,得到最终的视觉模态特征 ;
构建上下文语境信息的新表达 并通过提示的情感建模技术PEMT得到情感表示 ,将情感表示 输入至文本编码器SimCSE得到文本模态特征 ;
根据多模态交互式对话列表 中的每条话语 对应的语音片段 进行等间隔采样,将采样数据输入至数据向量化模型data2vec提取语音特征,聚合所有帧的语音特征得到语音模态特征 ;
将视觉模态特征 、文本模态特征 和语音模态特征 输入至跳跃连接多头注意力模块SMA对多模态信息进行融合,得到跨模态融合注意力输出 ;
对跨模态融合注意力输出 进行非线性变换,将非线性变换后的特征 输入至情感分类器,生成情感类别的预测概率分布向量 ;
所述基于人脸姿态注意力模块FPA对表情时序特征 和姿态时序特征 进行融合包括:对表情时序特征 姿态时序特征 进行编码,所述编码后的表情时序特征和姿态时序特征通过MLP非线性变换获得:,
,
其中, 和 分别表示编码后的表情时序特征和姿态时序特征;
对编码后的表情时序特征 和姿态时序特征 通过以下公式进行自适应加权,得到表情注意力系数 和姿态注意力系数 :,
,
其中, 为编码后的表情时序特征 的权重矩阵, 为编码后的姿态时序特征 的权重矩阵, 为编码后的表情时序特征 的偏置向量, 为编码后的姿态时序特征 的偏置向量;
对编码后的表情时序特征 和姿态时序特征 分别通过以下公式进行多头注意力计算得到 和 :,
,
其中, 和 分别表示经过多头注意力机制计算后得到的表情时序特征和姿态时序特征的权重系数, , , , 和 均为可学习参数,, , , 和 均为可学习参数;
所述基于人脸姿态注意力模块FPA对表情时序特征 和姿态时序特征 进行融合还包括:将编码后的姿态时序特征 作为查询Q,将编码后的表情时序特征 作为键K和值V,通过以下公式得到增强的表情时序特征 :,
将编码后的表情时序特征 作为查询Q,将编码后的姿态时序特征 作为键K和值V,通过以下公式得到增强的姿态时序特征 :;
所述基于人脸姿态注意力模块FPA对表情时序特征 和姿态时序特征 进行融合,得到最终的视觉模态特征 包括:将增强的表情时序特征 和姿态时序特征 通过以下公式以加权方式进行融合,得到最终的视觉模态特征 :。
2.根据权利要求1所述的多模态对话情感识别方法,其特征是,所述构建多模态交互式对话列表 包括:采集由多个参与者参与的多轮对话的多模态对话数据,并对多模态对话数据进行预处理,最后构建多模态交互式对话列表 ,所述多模态交互式对话列表 包括多条话语 ,其中每条话语 包含一个文本记录 、一个视频片段 和一个语音片段 ,所述多模态交互式对话列表 的表达式为: ,每条所述话语 的表达式为: ,
其中,表示话语的序号,取值范围为 ‑ ,表示整个多模态交互式对话列表 中的话语总数,每条话语 对应的说话者为 。
3.根据权利要求1所述的多模态对话情感识别方法,其特征是,所述基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表 中的一个视频片段 上分别得到表情时序特征 和姿态时序特征 包括:通过人脸识别模型SFace对一个视频片段 中的人脸进行识别,提取人脸区域,形成包含人脸图像的序列 , ,其中 表示人脸图像序列 中一帧的人脸图像;
通过姿态识别工具Mediapipe在同一个视频片段 中进行人体姿态识别,提取出人体区域,形成包含姿态图像的序列 ,其中 表示姿态图像序列 中一帧的姿态图像;
将人脸图像序列 和姿态图像序列 输入至时空特征提取模型Timesformer中,分别提取出表情时序特征 和姿态时序特征 ,所述表情时序特征 和姿态时序特征 表达式分别如下:,
。
4.根据权利要求1所述的多模态对话情感识别方法,其特征是,所述构建上下文语境信息的新表达 并通过提示的情感建模技术PEMT得到情感表示 ,将情感表示 输入至文本编码器SimCSE得到文本模态特征 包括:提取当前话语 之前的三个话语的文本记录,构建包含上下文语境信息的新表达 ,所述包含上下文语境信息的新表达 表达式如下:,
利用上下文语境信息的新表达 、说话者 和文本记录 ,提出基于提示的情感建模技术PEMT捕捉说话者 和所说话语之间的长距离依赖,得到情感表示 ,所述情感表示 的表达式如下:,
通过文本编码器SimCSE对所述情感表示 中特殊令牌
5.根据权利要求1所述的多模态对话情感识别方法,其特征是,所述根据多模态交互式对话列表 中的每条话语 对应的语音片段 进行等间隔采样,将采样数据输入至数据向量化模型data2vec提取语音特征,聚合所有帧的语音特征得到语音模态特征 包括:给定每条话语 对应的语音片段 ,将连续的语音片段 分割成 帧作为语音数据,所述语音数据表达式如下:,
其中, 表示第 个语音片段 的第 帧的语音数据,的取值范围为1‑ , 为帧的总数量,将每个语音数据 输入至数据向量化模型data2vec中得到语音特征表示 ,所述语音特征表示 表达式如下:,
使用平均池化将所有语音特征表示 聚合为话语 的语音模态特征 ,所述语音模态特征 通过以下公式计算获得:。
6.根据权利要求1所述的多模态对话情感识别方法,其特征是,所述将视觉模态特征、文本模态特征 和语音模态特征 输入至跳跃连接多头注意力模块SMA对多模态信息进行融合,得到跨模态融合注意力输出 包括:将视觉模态特征 和语音模态特征 进行拼接,得到拼接后的特征向量 ,所述拼接后的特征向量 表达式如下:,
将文本模态特征 作为查询 和值 ,将拼接后的特征 作为键 ,通过以下公式计算每个注意力头的权重分数,得到第 个注意力头的输出表示 :,
其中,表示注意力头的序号,的取值范围为 , , , ,为第 个注意力头对应的权重分数, 为键V向量维度,用于缩放注意力分数;
拼接所有注意力头的权重分数,通过线性变换矩阵 得到最终的跨模态融合注意力输出 ,所述跨模态融合注意力输出 通过以下公式计算获得:。
7.根据权利要求6所述的多模态对话情感识别方法,其特征是,所述对跨模态融合注意力输出 进行非线性变换,将非线性变换后的特征 输入至情感分类器,生成情感类别的预测概率分布向量 包括:通过情感分类器中的全连接层和激活函数ReLU实现跨模态融合注意力输出 的非线性变换,得到非线性变换后的特征 ,所述非线性变换后的特征 通过以下公式计算获得:,
其中, 为全连接层的权重矩阵, 为偏置向量,表示激活函数ReLU,将非线性变换后的特征 输入至情感分类器中,通过以下公式计算得到情感类别的预测概率分布向量 :,
其中, 为分类器的权重矩阵, 为偏置项。