1.一种基于超图神经网络的多模态对话情绪识别方法,其特征在于,包括:获取说话者信息和对话中的多模态话语,其中,所述多模态话语包括文本、语音、图像;
分别对多模态话语进行编码,分别提取单模态特征,所述单模态特征文本模态的特征、语音模态的特征和图像模态的特征;
对说话者信息进行编码,将编码后的对话者信息嵌入单模态特征中,获得涵盖说话人信息的话语融合表示,所述涵盖说话人信息的话语融合表示包括文本模态特征表示、语音模态特征表示和图像模态特征表示;
结合涵盖说话人信息的话语融合表示并使用超图神经网络构建模态内超图和模态间超图;
分别对模态内超图和模态间超图引入超图卷积神经网络在超图结构中传递信息,以进行模态内和模态间特征融合,分别得到模态内超图和模态间超图聚合后的节点特征表示;
将模态内超图和模态间超图聚合后的节点特征表示进行拼接,得到最终的特征表示;
将最终的特征表示输入到情绪分类器中,得到情绪类别。
2.根据权利要求1所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述分别对多模态话语进行编码,分别提取单模态特征,所述单模态特征文本模态的特征、语音模态的特征和图像模态的特征,具体包括:对于文本,使用双向长短时记忆编码从话语中提取上下文信息,对于语音和图像,使用全连接网络进行编码来提取特征,公式如下:其中,t代表文本,a代表语音,v代表图像, 分别表示文本、语音、图像模态特征编码的输入, 分别表示文本、语音、图像模态特征编码的输出, 表示双向长短时记忆网络, 均为可训练参数。
3.根据权利要求2所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述对说话者信息进行编码,将编码后的对话者信息嵌入单模态特征中,获得涵盖说话人信息的话语融合表示,所述涵盖说话人信息的话语融合表示包括文本模态特征表示、语音模态特征表示和图像模态特征表示,具体包括:将说话者信息进行编码,用独热向量 表示说话人信息,说话人嵌入 计算如下式:其中, 是可训练权重, 为说话人特征的独热向量, 为偏置参数;
将说话人嵌入添加到单模态特征中,获得涵盖说话人信息的话语融合表示,如下式所示:其中, 表示嵌入说话人信息的特征表示, 表示不含说话人信息的特征。
4.根据权利要求1所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述结合涵盖说话人信息的话语融合表示并使用超图神经网络构建模态内超图和模态间超图,具体包括:对于模态内超图,构建模态上下文超图 ,在每轮对话中,每个话语 分别代表文本、语音、图像模态的节点,模态内超图总共有3×n个节点,其中,n为对话中话语数;
超图的超边连接两个以上的顶点,令 为具有N个顶点和M个超边的超图,其中, ;使用关联矩阵 描述超图 ,其中 表示超边 与节点 相关联,否则 ,公式如下:
;
对于模态间超图,构建超图 ,其中 ,n代表
话语的数量,则模态间超图总共有3×n个节点;将每个节点连接到来自相同话语不同模态的节点,构建模态间超边,共n个超边。
5.根据权利要求4所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述分别对模态内超图和模态间超图引入超图卷积神经网络在超图结构中传递信息,以进行模态内和模态间特征融合,分别得到模态内超图和模态间超图聚合后的节点特征表示,具体包括:每个超边都有一个可训练参数相关联,该参数自适应地调节多个超边对最终节点嵌入的影响,公式如下:其中 为所有超边共享的可训练参数, 表示超边的个数, 表示超图的权重矩阵的对角矩阵, 表示由多个超边关联矩阵拼接生成的超图关联矩阵;
使用超图卷积来利用高阶关系和局部聚类来实现顶点之间的有效信息传播,具体分为从顶点到超边的信息聚合和从超边到顶点的信息聚合两个阶段,公式如下:其中, 是层 中顶点 的输入特征向量, 是节点 的更新特征;
是超边 的消息, 是与超边 相关的权重, 表示节点 的消息, 是超边 的特征, 为超边 的节点邻域集, 为节点 的超边邻域集;
分别为第l层的节点消息函数、超边更新函数、超边消息函数和节点更新函数;
矩阵形式的公式如下:
其中, 代表第l层的输入, 和 分别是节点度矩阵和超边度矩阵, 是训练过程中需要学习的参数;
超图卷积后,得到模态内超图和模态间超图聚合后的节点特征表示 及 。
6.根据权利要求5所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述将模态内超图和模态间超图聚合后的节点特征表示进行拼接,得到最终的特征表示,公式如下:其中, 为最终的特征表示。
7.根据权利要求6所述的一种基于超图神经网络的多模态对话情绪识别方法,其特征在于:所述将最终的特征表示输入到情绪分类器中,得到情绪类别,具体包括将最终的特征表示作为全连接网络的输入进行情感预测,公式如下:其中, 表示第 个话语 的最终特征向量, 表示非线性激活函数, 表示 的预测情绪概率分布, 表示预测的情绪类别, 表示可训练参数。
8.一种基于超图神经网络的多模态对话情绪识别系统,其特征在于,包括以下模块:获取模块,用于获取说话者信息和对话中的多模态话语,其中,所述多模态话语包括文本、语音、图像;
第一编码模块,用于分别对多模态话语进行编码,分别提取单模态特征,所述单模态特征文本模态的特征、语音模态的特征和图像模态的特征;
第二编码模块,用于对说话者信息进行编码,将编码后的对话者信息嵌入单模态特征中,获得涵盖说话人信息的话语融合表示,所述涵盖说话人信息的话语融合表示包括文本模态特征表示、语音模态特征表示和图像模态特征表示;
构建模块,用于结合涵盖说话人信息的话语融合表示并使用超图神经网络构建模态内超图和模态间超图;
特征融合模块,用于分别对模态内超图和模态间超图引入超图卷积神经网络在超图结构中传递信息,以进行模态内和模态间特征融合,分别得到模态内超图和模态间超图聚合后的节点特征表示;
拼接模块,用于将模态内超图和模态间超图聚合后的节点特征表示进行拼接,得到最终的特征表示;
情感预测模块,用于将最终的特征表示输入到情绪分类器中,得到情绪类别。
9.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1‑8所述的方法中的任一方法。
10.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1‑8所述的方法中的任一方法的指令。