买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种多模态对话情感识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种多模态对话情感识别方法

￥31200

专利号： 2024118336082

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态对话情感识别方法，其特征是，包括：构建多模态交互式对话列表U；

基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表中的一个视频片段上分别得到表情时序特征和姿态时序特征；

基于人脸姿态注意力模块FPA对表情时序特征和姿态时序特征进行融合，得到最终的视觉模态特征；

构建上下文语境信息的新表达并通过提示的情感建模技术PEMT得到情感表示，将情感表示输入至文本编码器SimCSE得到文本模态特征；

根据多模态交互式对话列表中的每条话语对应的语音片段进行等间隔采样，将采样数据输入至数据向量化模型data2vec提取语音特征，聚合所有帧的语音特征得到语音模态特征；

将视觉模态特征、文本模态特征和语音模态特征输入至跳跃连接多头注意力模块SMA对多模态信息进行融合，得到跨模态融合注意力输出；

对跨模态融合注意力输出进行非线性变换，将非线性变换后的特征输入至情感分类器，生成情感类别的预测概率分布向量；

所述基于人脸姿态注意力模块FPA对表情时序特征和姿态时序特征进行融合包括：对表情时序特征姿态时序特征进行编码，所述编码后的表情时序特征和姿态时序特征通过MLP非线性变换获得：，

，

其中，和分别表示编码后的表情时序特征和姿态时序特征；

对编码后的表情时序特征和姿态时序特征通过以下公式进行自适应加权，得到表情注意力系数和姿态注意力系数：，

，

其中，为编码后的表情时序特征的权重矩阵，为编码后的姿态时序特征的权重矩阵，为编码后的表情时序特征的偏置向量，为编码后的姿态时序特征的偏置向量；

对编码后的表情时序特征和姿态时序特征分别通过以下公式进行多头注意力计算得到和：，

，

其中，和分别表示经过多头注意力机制计算后得到的表情时序特征和姿态时序特征的权重系数，，，，和均为可学习参数，，，，和均为可学习参数；

所述基于人脸姿态注意力模块FPA对表情时序特征和姿态时序特征进行融合还包括：将编码后的姿态时序特征作为查询Q，将编码后的表情时序特征作为键K和值V，通过以下公式得到增强的表情时序特征：，

将编码后的表情时序特征作为查询Q，将编码后的姿态时序特征作为键K和值V，通过以下公式得到增强的姿态时序特征：；

所述基于人脸姿态注意力模块FPA对表情时序特征和姿态时序特征进行融合，得到最终的视觉模态特征包括：将增强的表情时序特征和姿态时序特征通过以下公式以加权方式进行融合，得到最终的视觉模态特征：。

2.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述构建多模态交互式对话列表包括：采集由多个参与者参与的多轮对话的多模态对话数据，并对多模态对话数据进行预处理，最后构建多模态交互式对话列表，所述多模态交互式对话列表包括多条话语，其中每条话语包含一个文本记录、一个视频片段和一个语音片段，所述多模态交互式对话列表的表达式为：，每条所述话语的表达式为：，

其中，表示话语的序号，取值范围为 ‑ ，表示整个多模态交互式对话列表中的话语总数，每条话语对应的说话者为。

3.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述基于人脸识别模型SFace和姿态识别工具Mediapipe在多模态交互式对话列表中的一个视频片段上分别得到表情时序特征和姿态时序特征包括：通过人脸识别模型SFace对一个视频片段中的人脸进行识别，提取人脸区域，形成包含人脸图像的序列，，其中表示人脸图像序列中一帧的人脸图像；

通过姿态识别工具Mediapipe在同一个视频片段中进行人体姿态识别，提取出人体区域，形成包含姿态图像的序列，其中表示姿态图像序列中一帧的姿态图像；

将人脸图像序列和姿态图像序列输入至时空特征提取模型Timesformer中，分别提取出表情时序特征和姿态时序特征，所述表情时序特征和姿态时序特征表达式分别如下：，

。

4.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述构建上下文语境信息的新表达并通过提示的情感建模技术PEMT得到情感表示，将情感表示输入至文本编码器SimCSE得到文本模态特征包括：提取当前话语之前的三个话语的文本记录，构建包含上下文语境信息的新表达，所述包含上下文语境信息的新表达表达式如下：，

利用上下文语境信息的新表达、说话者和文本记录，提出基于提示的情感建模技术PEMT捕捉说话者和所说话语之间的长距离依赖，得到情感表示，所述情感表示的表达式如下：，

通过文本编码器SimCSE对所述情感表示中特殊令牌的表示进行编码，得到文本模态特征，所述文本模态特征表达式如下：。

5.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述根据多模态交互式对话列表中的每条话语对应的语音片段进行等间隔采样，将采样数据输入至数据向量化模型data2vec提取语音特征，聚合所有帧的语音特征得到语音模态特征包括：给定每条话语对应的语音片段，将连续的语音片段分割成帧作为语音数据，所述语音数据表达式如下：，

其中，表示第个语音片段的第帧的语音数据，的取值范围为1‑ ，为帧的总数量，将每个语音数据输入至数据向量化模型data2vec中得到语音特征表示，所述语音特征表示表达式如下：，

使用平均池化将所有语音特征表示聚合为话语的语音模态特征，所述语音模态特征通过以下公式计算获得：。

6.根据权利要求1所述的多模态对话情感识别方法，其特征是，所述将视觉模态特征、文本模态特征和语音模态特征输入至跳跃连接多头注意力模块SMA对多模态信息进行融合，得到跨模态融合注意力输出包括：将视觉模态特征和语音模态特征进行拼接，得到拼接后的特征向量，所述拼接后的特征向量表达式如下：，

将文本模态特征作为查询和值，将拼接后的特征作为键，通过以下公式计算每个注意力头的权重分数，得到第个注意力头的输出表示：，

其中，表示注意力头的序号，的取值范围为，，，，为第个注意力头对应的权重分数，为键V向量维度，用于缩放注意力分数；

拼接所有注意力头的权重分数，通过线性变换矩阵得到最终的跨模态融合注意力输出，所述跨模态融合注意力输出通过以下公式计算获得：。

7.根据权利要求6所述的多模态对话情感识别方法，其特征是，所述对跨模态融合注意力输出进行非线性变换，将非线性变换后的特征输入至情感分类器，生成情感类别的预测概率分布向量包括：通过情感分类器中的全连接层和激活函数ReLU实现跨模态融合注意力输出的非线性变换，得到非线性变换后的特征，所述非线性变换后的特征通过以下公式计算获得：，

其中，为全连接层的权重矩阵，为偏置向量，表示激活函数ReLU，将非线性变换后的特征输入至情感分类器中，通过以下公式计算得到情感类别的预测概率分布向量：，

其中，为分类器的权重矩阵，为偏置项。