1.一种面向社交网络短视频的多模态情感分析方法,其特征在于,包括:
获取社交网络短视频的视频模态信息、文本模态信息和音频模态信息;
根据所述视频模态信息、文本模态信息、音频模态信息和预先训练的面向社交网络短视频的多模态情感分析模型,获得社交网络短视频的情感分析结果;
其中,在所述面向社交网络短视频的多模态情感分析模型中,
根据所述视频模态信息、文本模态信息和音频模态信息,分别进行特征提取,获得视频单模态特征、文本单模态特征和音频单模态特征;
根据所述文本单模态特征、所述视频单模态特征和所述音频单模态特征,进行共性特征学习,获得第一共性特征、第二共性特征和第三共性特征;
其中,第一共性特征是视频单模态特征和音频单模态特征的共性特征,第二共性特征是文本单模态特征和音频单模态特征的共性特征,第三共性特征是视频单模态特征和文本单模态特征的共性特征;
根据所述文本单模态特征以及所述第一共性特征、所述视频单模态特征以及所述第二共性特征和所述音频单模态特征以及所述第三共性特征,经过交叉注意力模块,获得文本跨模态特征、视频跨模态特征和音频跨模态特征;
将所述文本跨模态特征、视频跨模态特征和音频跨模态特征,映射到同一维度,获得社交网络短视频的情感分析结果;
其中,获得第一共性特征、获得第二共性特征和获得第三共性特征的方法一致,所述方法包括:计算两个单模态特征之间的EMD距离值;
采用所述EMD距离作为损失函数,对共性特征学习阶段进行监督,在网络反向传播的过程中以所述损失函数最小为目标,得到两个单模态特征的共性特征;
其中,获得文本跨模态特征、视频跨模态特征和音频跨模态特征的方法一致,所述方法包括:以单模态特征作为主要特征,共性特征作为辅助特征,输入到交叉注意力模块进行学习,增强单模态特征,获得跨模态特征;
所述跨模态特征表示为:
;
*
式中,x3表示经过第一个单模态特征x1和第二个单模态特征x2辅助的第三个单模态特征的跨模态特征,x3表示第三个单模态特征的特征, 表示输入第三个单模态特征的维度,Q3表示第三个单模态特征的Query向量, 表示计算第三个单模态特征的head时Q3的权重矩阵,K1、K2分别表示第一个单模态特征和第二个单模态特征的Key向量, 表示计算第一个单模态特征的head时K1时的权重矩阵, 表示计算第二个单模态特征的head时K2时的权重矩阵,V1、V2别表示第一个单模态特征和第二个单模态特征的Value向量,T表示矩阵转置,C(3, 1)表示第三个单模态特征和第一个单模态特征的共性特征,C(3, 2)第三个单模态特征和第二个单模态特征的共性特征,softmax是归一化指数函数。
2.根据权利要求1所述的面向社交网络短视频的多模态情感分析方法,其特征在于,采用所述EMD距离作为损失函数,对共性特征学习阶段进行监督,所述损失函数表示为:;
式中,X表示一个单模态特征的特征分布,Y表示另一个单模态特征的特征分布,x表示特征分布X中的一个变量,X→Y表示一个单模态特征的特征分布X到另一个单模态特征的特征分布Y的映射,表示双射,min表示最小值,LossEMD表示损失函数,|| ||表示EMD距离。
3.根据权利要求1所述的面向社交网络短视频的多模态情感分析方法,其特征在于,所*述文本跨模态特征xt 表示为:
;
*
式中,xt 表示文本跨模态特征,xt表示文本单模态特征, 表示计算文本单模态特征xt的head时 的权重矩阵, 表示文本单模态特征的Query向量, 表示输入文本单模态特征的维度,C(t, a)表示第二共性特征,包括文本单模态特征和音频单模态特征的共性特征,表示计算音频单模态特征的head时 的权重矩阵, 表示音频单模态特征的Key向量,表示音频单模态特征的Value向量,C(t, v)表示第三共性特征,包括文本单模态特征和音频单模态特征三维共性特征, 表示计算视频单模态特征的head时 的权重矩阵, 表示视频单模态特征的Key向量,W表示权值系数,Q表示文本单模态特征xt经线性变换后的输出结果,K表示音频单模态特征xa经线性变换后的输出结果,V表示视频单模态特征xv经线性变换后的输出结果,表示视频单模态特征的Value向量,a表示音频模态,v表示视频模态,t表示文本模态。
4.一种面向社交网络短视频的多模态情感分析系统,其特征在于,包括
数据集获取模块,用于获取社交网络短视频的视频模态信息、文本模态信息和音频模态信息;
情感结果分析模块,用于根据视频模态信息、文本模态信息、音频模态信息和预先训练的面向社交网络短视频的多模态情感分析模型,获得社交网络短视频的情感分析结果;
其中,在所述面向社交网络短视频的多模态情感分析模型中,
根据所述视频模态信息、文本模态信息和音频模态信息,分别进行特征提取,获得视频单模态特征、文本单模态特征和音频单模态特征;
根据所述文本单模态特征、所述视频单模态特征和所述音频单模态特征,进行共性特征学习,获得第一共性特征、第二共性特征和第三共性特征;其中,第一共性特征是视频单模态特征和音频单模态特征的共性特征,第二共性特征是文本单模态特征和音频单模态特征的共性特征,第三共性特征是视频单模态特征和文本单模态特征的共性特征;
根据所述文本单模态特征以及所述第一共性特征、所述视频单模态特征以及所述第二共性特征和所述音频单模态特征以及所述第三共性特征,经过交叉注意力模块,获得文本跨模态特征、视频跨模态特征和音频跨模态特征;
将所述文本跨模态特征、视频跨模态特征和音频跨模态特征,映射到同一维度,获得社交网络短视频的情感分析结果;
其中,在所述面向社交网络短视频的多模态情感分析模型中,
根据所述视频模态信息、文本模态信息和音频模态信息,分别进行特征提取,获得视频单模态特征、文本单模态特征和音频单模态特征;
根据所述文本单模态特征、所述视频单模态特征和所述音频单模态特征,进行共性特征学习,获得第一共性特征、第二共性特征和第三共性特征;
其中,第一共性特征是视频单模态特征和音频单模态特征的共性特征,第二共性特征是文本单模态特征和音频单模态特征的共性特征,第三共性特征是视频单模态特征和文本单模态特征的共性特征;
根据所述文本单模态特征以及所述第一共性特征、所述视频单模态特征以及所述第二共性特征和所述音频单模态特征以及所述第三共性特征,经过交叉注意力模块,获得文本跨模态特征、视频跨模态特征和音频跨模态特征;
将所述文本跨模态特征、视频跨模态特征和音频跨模态特征,映射到同一维度,获得社交网络短视频的情感分析结果;
其中,获得第一共性特征、获得第二共性特征和获得第三共性特征的方法一致,所述方法包括:计算两个单模态特征之间的EMD距离值;
采用所述EMD距离作为损失函数,对共性特征学习阶段进行监督,在网络反向传播的过程中以所述损失函数最小为目标,得到两个单模态特征的共性特征;
其中,获得文本跨模态特征、视频跨模态特征和音频跨模态特征的方法一致,所述方法包括:以单模态特征作为主要特征,共性特征作为辅助特征,输入到交叉注意力模块进行学习,增强单模态特征,获得跨模态特征;
所述跨模态特征表示为:
;
*
式中,x3表示经过第一个单模态特征x1和第二个单模态特征x2辅助的第三个单模态特征的跨模态特征,x3表示第三个单模态特征的特征, 表示输入第三个单模态特征的维度,Q3表示第三个单模态特征的Query向量, 表示计算第三个单模态特征的head时Q3的权重矩阵,K1、K2分别表示第一个单模态特征和第二个单模态特征的Key向量, 表示计算第一个单模态特征的head时K1时的权重矩阵, 表示计算第二个单模态特征的head时K2时的权重矩阵,V1、V2别表示第一个单模态特征和第二个单模态特征的Value向量,T表示矩阵转置,C(3, 1)表示第三个单模态特征和第一个单模态特征的共性特征,C(3, 2)第三个单模态特征和第二个单模态特征的共性特征,softmax是归一化指数函数。