1.一种多模态讽刺识别方法,其特征在于,包括以下步骤:
获得待测文档数据以及预设的讽刺识别模型,其中,所述待测文档数据包括待测句子以及待测句子对应的待测图像,所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块;
将所述待测文档数据输入至所述全局特征提取模块中进行特征提取,获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示;
将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估,获得跨模态相似度分数;
构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵,将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估,获得同模态相似度分数;
将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取,获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示;
将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别,获得所述待测文档数据的讽刺识别结果。
2.根据权利要求1所述的多模态讽刺识别方法,其特征在于,所述全局特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块;
将所述待测文档数据输入至所述全局特征提取模块中进行特征提取,获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示,包括步骤:将所述待测句子输入至所述词嵌入模块中进行编码处理,获得所述待测句子的初始文本特征表示;
将所述待测图像划分为若干个图像子区域,将若干个所述图像子区域输入至所述目标检测模块进行目标检测,获得所述待测图像的初始图像特征表示;
将所述初始文本特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换,获得所述文本全局特征表示以及图像全局特征表示。
3.根据权利要求2所述的多模态讽刺识别方法,其特征在于,所述将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估,获得跨模态相似度分数,包括步骤:采用多头交叉注意力机制,根据所述文本全局特征表示、图像全局特征表示以及预设的跨模态对齐算法,获得视觉模态对齐后的文本全局特征表示,其中,所述跨模态对齐算法为:式中, 为第i个交叉注意力的输出,softmax()为归一化函数,T为所述文本全局特征表示, 为第i个交叉注意力的第一权重参数,I为所述图像全局特征表示, 为第i个交叉注意力的第二权重参数, 为第i个交叉注意力的第三权重参数,d为维度参数,h为交叉注意力的头数,为转置符号, 为所述视觉模态对齐后的文本全局特征表示, 为归一化函数, 为维度变换函数, 为第h个交叉注意力的输出;
根据所述视觉模态对齐后的文本全局特征表示、图像全局特征表示以及预设的跨模态相似度分数计算算法,获得所述跨模态相似度分数,其中,所述跨模态相似度分数计算算法为:式中, 为所述跨模态相似度分数, 为可训练的第一权重参数, 为第一偏置参数。
4.根据权利要求3所述的多模态讽刺识别方法,其特征在于:所述同模态交互模块包括多层图注意力网络;
所述将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估,获得同模态相似度分数,包括步骤:分别将所述第一邻接矩阵以及第二邻接矩阵作为所述多层图注意力网络的首层输入数据,根据预设的图卷积算法,获得所述多层图注意力网络的各层的特征向量,其中,所述特征向量包括所述第一邻接矩阵对应的第一特征向量,以及所述第二邻接矩阵对应的第二特征向量,所述图卷积算法为:式中, 为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分, 为激活函数, 为所述多层图注意力网络的第l层的可学习参数的偏置, 为所述多层图注意力网络的第l层的权重参数,为所述多层图注意力网络的第l层的第i个节点的特征向量,j,k表示邻居节点,以及 分别为所述多层图注意力网络的第l层的第j、k个邻居节点的特征向量,k表示邻居节点, 为第i个节点的邻居节点集合,为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分;
将所述多层图注意力网络的各层的,所述第一邻接矩阵对应的第一特征向量进行组合,获得所述待测句子对应的文本模态嵌入表示,将所述多层图注意力网络的各层的,所述第二邻接矩阵对应的第二特征向量进行组合,获得所述待测图像对应的图像模态嵌入表示,根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法,获得所述同模态相似度分数,其中,所述同模态相似度分数计算算法为:式中, 为所述同模态相似度分数, 为所述文本模态嵌入表示,为所述图像模态嵌入表示, 为可训练的第二权重参数, 为第二偏置参数。
5.根据权利要求4所述的多模态讽刺识别方法,其特征在于,所述根据所述文本模态嵌入表示、图像模态嵌入表示以及预设的同模态相似度分数计算算法,获得所述同模态相似度分数之前,包括步骤:根据所述文本全局特征表示、文本模态嵌入表示、视觉模态对齐后的文本全局特征表示以及预设的优化算法,获得优化后的所述文本模态嵌入表示,其中,所述优化算法为:式中, 为优化后的所述文本模态嵌入表示, 为可训练的第三权重参数, 为第三偏置参数。
6.根据权利要求4所述的多模态讽刺识别方法,其特征在于,所述将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取,获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示,包括步骤:根据所述文本全局特征表示以及预设的第一语义特征提取算法,获得所述待测句子对应的语义特征表示,其中,所述第一语义特征提取算法为:式中,A为所述文本全局特征表示对应的注意力矩阵, 为可训练的第四权重参数,为可训练的第五权重参数, 为可训练的第六权重参数,K为多头自注意力的头数,F为所述待测句子对应的语义特征表示,GCN()为图卷积函数;
根据所述图像全局特征表示以及预设的第二语义特征提取算法,获得所述待测图像对应的语义特征表示,其中,所述第二语义特征提取算法为:式中, 为所述待测图像对应的语义特征表示, 为可训练的第七权重参数, 为第四偏置参数。
7.根据权利要求6所述的多模态讽刺识别方法,其特征在于,所述将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别,获得所述待测文档数据的讽刺识别结果,包括步骤:根据所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数、同模态相似度分数以及预设的讽刺表示计算算法,获得所述待测文档数据的讽刺表示,其中,所述讽刺表示计算算法为:式中,y为所述讽刺表示, 为element‑wise向量积符号;
根据所述待测文档数据的讽刺表示以及预设的预测讽刺概率分布向量计算算法,获得所述待测文档数据的预测讽刺概率分布向量,作为所述讽刺识别结果,其中,所述预测讽刺概率分布向量计算算法为:式中,为所述预测讽刺概率分布向量, 为可训练的第八权重参数, 为第五偏置参数。
8.根据权利要求7所述的多模态讽刺识别方法,其特征在于,还包括步骤:训练所述讽刺识别模型,所述训练所述讽刺识别模型,包括步骤:获得若干组训练文档数据、句子标注信息集以及标签数据,其中,所述训练文档数据包括训练句子以及训练句子对应的训练图像,所述句子标注信息集包括各个所述训练句子的标注信息,所述标签数据包括各个所述训练文档数据的真实讽刺概率分布向量;
构建若干个批次的训练文档数据集,其中,所述训练文档数据集包括若干个正例训练文档数据以及若干个负例训练文档数据,所述正例训练文档数据包括属于同一组训练文档数据的训练句子以及训练图像,所述负例训练文档数据包括不属于同一组训练文档数据的训练句子以及训练图像;
将所述训练文档数据集输入至待训练的讽刺识别模型,获得所述训练文档数据集的若干个正例训练文档数据对应的文本全局特征表示、图像全局特征表示,以及若干个所述负例训练文档数据对应的文本全局特征表示、图像全局特征表示,根据预设的第一损失函数,获得第一损失值,其中,所述第一损失函数为:式中, 为当前批次的第i个正例训练文档数据的图像到文本对比损失值, 为当前批次的第i个正例训练文档数据的图像全局特征表示, 为当前批次的第i个正例训练文档数据的文本全局特征表示,N为当前批次的负例训练文档数据的数目, 为当前批次的第j个负例训练文档数据的文本全局特征表示, 为当前批次的第i个正例训练文档数据的文本到图像对比损失值, 为当前批次的第j个负例训练文档数据的图像全局特征表示,sim()为余弦相似度函数,τ为温度系数, 为第一损失值,M为批次的数目, 为第一超参数;
根据所述句子标注信息集以及训练文档数据集,构建若干个批次的训练句子集,其中,所述训练句子集包括若干个正例训练句子组以及若干个负例训练句子组,所述正例训练句子组包括相同的标注信息的训练句子,所述负例训练句子组包括不同的标注信息的训练句子;
获得所述训练句子对应的文本全局特征表示,根据若干个批次的所述训练句子集的若干个正例训练句子组中的训练句子的文本全局特征表示,若干个负例训练句子组中的训练句子的文本全局特征表示以及预设的第二损失函数,获得第二损失值,其中,所述第二损失函数为:式中, 为第二损失值, 为当前批次的第i个正例训练句子组中的目标训练句子对应的文本全局特征表示, 为当前批次的同一个正例训练句子组中,与目标训练句子相同的标注信息的训练句子对应的文本全局特征表示, 为当前批次的第j个负例训练句子组中,与目标训练句子不同的标注信息的训练句子对应的文本全局特征表示,M为批次的数目,O为当前批次的负例训练句子组的数目;
将各个所述训练文档数据输入至所述待训练的讽刺识别模型,获得各个所述训练文档数据的预测讽刺概率分布向量,根据各个所述训练文档数据的预测讽刺概率分布向量、真实讽刺概率分布向量以及预设的第三损失函数,获得第三损失值,其中,所述第三损失函数为:式中, 为第三损失值,P为所述训练文档数据的数目, 为第i个训练文档数据的真实讽刺概率分布向量, 为第i个训练文档数据的预测讽刺概率分布向量;
根据所述第一损失值、第二损失值、第三损失值以及预设的总损失函数,对所述待训练的讽刺识别模型进行训练,获得目标讽刺识别模型,其中,所述总损失函数为:式中,L为总损失值,为第二超参数,为第三超参数。
9.一种多模态讽刺识别装置,其特征在于,包括:
数据获取模块,用于获得待测文档数据以及预设的讽刺识别模型,其中,所述待测文档数据包括待测句子以及待测句子对应的待测图像,所述讽刺识别模型包括全局特征提取模块、跨模态交互模块、同模态交互模块、语义特征提取模块以及讽刺识别模块;
全局特征提取模块,用于将所述待测文档数据输入至所述全局特征提取模块中进行特征提取,获得所述待测句子对应的文本全局特征表示以及待测图像对应的图像全局特征表示;
跨模态相似度分数计算模块,用于将所述文本全局特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行相似度水平评估,获得跨模态相似度分数;
同模态相似度分数计算模块,用于构建所述文本全局特征表示对应的第一邻接矩阵以及图像全局特征表示对应的第二邻接矩阵,将所述第一邻接矩阵以及第二邻接矩阵输入至所述同模态交互模块中进行相似度水平评估,获得同模态相似度分数;
语义特征提取模块,用于将所述文本全局特征表示以及图像全局特征表示输入至所述语义特征提取模块中进行语义特征提取,获得所述待测句子对应的语义特征表示、待测图像对应的语义特征表示;
讽刺识别模块,用于将所述待测句子对应的语义特征表示、待测图像对应的语义特征表示、跨模态相似度分数以及同模态相似度分数输入至所述讽刺识别模块中进行讽刺识别,获得所述待测文档数据的讽刺识别结果。
10.一种计算机设备,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的多模态讽刺识别方法的步骤。