买专利、卖专利、专利购买、专利交易、专利出售、高企申报-多模态讽刺检测方法、装置、设备以及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

多模态讽刺检测方法、装置、设备以及存储介质

￥16200

专利号： 2024102957228

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模态讽刺检测方法，其特征在于，包括以下步骤：

获得待测文档数据以及预设的讽刺检测模型，其中，所述待测文档数据包括待测文本以及待测图像，所述讽刺检测模型包括特征提取模块、文本特征增强模块、跨模态交互模块以及讽刺检测模块；

获得训练数据集，其中，所述训练数据集包括若干组训练文档数据，所述训练文档数据包括训练文本以及训练图像；

获得若干组所述训练文档数据的训练图像对应的重构图像，以及若干组所述训练文档数据的训练文本全局特征表示、训练图像全局特征表示、重构图像全局特征表示，采用对比学习方法，根据若干组所述训练文档数据的训练文本全局特征表示、训练图像全局特征表示以及重构图像全局特征表示，获得第一总损失值；

获得若干组所述训练文档数据的训练文本模态嵌入表示以及训练图像模态嵌入表示，采用对比学习方法，根据若干组所述训练文档数据的训练文本模态嵌入表示以及训练图像模态嵌入表示，获得第二总损失值；

获得若干组所述训练文档数据的真实讽刺概率分布向量，采用交叉熵方法，根据若干组所述训练文档数据的预测讽刺概率分布向量以及真实讽刺概率分布向量，获得第三总损失值，根据所述第一总损失值、第二总损失值以及第三总损失值，对所述讽刺检测模型进行训练，获得目标讽刺检测模型；

将所述待测文档数据输入至所述目标讽刺检测模型的特征提取模块中进行特征提取，获得所述待测文本对应的文本全局特征表示以及待测图像对应的图像全局特征表示；

将所述文本全局特征表示以及图像全局特征表示输入至所述文本特征增强模块中进行特征增强，获得文本增强特征表示；

将所述文本全局特征表示、文本增强特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行不一致性评估，获得不一致性分数；

将所述文本增强特征表示、图像全局特征表示以及不一致性分数输入至所述讽刺检测模块中进行讽刺检测，获得所述待测文档数据的讽刺检测结果。

2.根据权利要求1所述的多模态讽刺检测方法，其特征在于，所述特征提取模块包括词嵌入模块、目标检测模块以及维度变换模块；

将所述待测文档数据输入至所述特征提取模块中进行特征提取，获得所述待测文本对应的文本全局特征表示以及待测图像对应的图像全局特征表示，包括步骤：将所述待测文本输入至所述词嵌入模块中进行编码处理，获得所述待测文本的初始文本特征表示；

将所述待测图像划分为若干个图像子区域，将若干个所述图像子区域输入至所述目标检测模块进行目标检测，获得所述待测图像的初始图像特征表示；

将所述初始文本特征表示以及初始图像特征表示输入至所述维度变换模块中进行维度变换以及特征提取，获得所述文本全局特征表示以及图像全局特征表示。

3.根据权利要求2所述的多模态讽刺检测方法，其特征在于，所述将所述文本全局特征表示以及图像全局特征表示输入至所述文本特征增强模块中进行特征增强，获得文本增强特征表示，包括步骤：采用多头注意力机制，根据所述文本全局特征表示、图像全局特征表示以及预设的注意力提取算法，获得若干个多头注意力对应的注意力特征表示，其中，所述注意力提取算法为：式中，为第i个多头注意力对应的注意力特征表示，softmax（）为归一化函数，为所述文本全局特征表示，为第i个多头注意力的第一权重参数，为所述图像全局特征表示，为第i个多头注意力的第二权重参数，为第i个多头注意力的第三权重参数，d为维度参数，h为多头注意力的头数，为转置符号；

根据若干个所述多头注意力对应的注意力特征表示、文本全局特征表示以及预设的文本增强特征算法，获得所述文本增强特征表示，其中，所述文本增强特征算法为：式中，为所述文本增强特征表示，为归一化函数，为多层感知机函数，为第h个多头注意力对应的注意力特征表示。

4.根据权利要求3所述的多模态讽刺检测方法，其特征在于：所述不一致性分数包括第一不一致性分数以及第二不一致性分数，所述跨模态交互模块包括全连接网络以及多层图注意力网络；

所述将所述文本全局特征表示、文本增强特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行不一致性评估，获得不一致性分数，包括步骤：将所述文本全局特征表示、文本增强特征表示以及图像全局特征表示输入至全连接网络中，根据所述文本增强特征表示、图像全局特征表示以及预设的第一不一致性评估算法，获得第一不一致性分数，其中，所述第一不一致性评估算法为：式中，为所述第一不一致性分数，为第一权重参数，为第一偏置参数，为第一跨模态联合权重参数；

构建所述文本增强特征表示对应的文本邻接矩阵以及图像全局特征表示对应的图像邻接矩阵，分别将所述文本邻接矩阵以及图像邻接矩阵作为所述多层图注意力网络的首层输入数据，根据预设的图卷积算法，获得所述多层图注意力网络的各层的特征向量，其中，所述特征向量包括所述文本邻接矩阵对应的文本特征向量，以及所述图像邻接矩阵对应的图像特征向量，所述图卷积算法为：式中，为所述多层图注意力网络的第l层的第i个节点与第j个邻居节点之间的注意力得分，为激活函数，为所述多层图注意力网络的第l层的可学习参数的偏置，为所述多层图注意力网络的第l层的权重参数，为所述多层图注意力网络的第l层的第i个节点的特征向量，j，k表示邻居节点，以及分别为所述多层图注意力网络的第l层的第j、k个邻居节点的特征向量，为第i个节点的同一层的邻居节点集合，为所述多层图注意力网络的第l层的第i个节点与自身之间的注意力得分；

将所述多层图注意力网络的各层的若干个节点的文本特征向量进行组合，获得所述待测文本对应的文本模态嵌入表示，将所述多层图注意力网络的各层的若干个节点的图像特征向量进行组合，获得所述待测图像对应的图像模态嵌入表示，根据所述文本全局特征表示、文本增强特征表示、文本模态嵌入表示、图像模态嵌入表示以及预设的第二不一致性评估算法，获得第二不一致性分数，其中，所述第二不一致性评估算法为：式中，为所述第二不一致性分数，为文本模态嵌入表示，为图像模态嵌入表示，c为文本语义特征表示，为第二权重参数，为第三权重参数，为第二偏置参数，为第三偏置参数，为第二跨模态联合权重参数。

5.根据权利要求4所述的多模态讽刺检测方法，其特征在于，所述将所述文本增强特征表示、图像全局特征表示以及不一致性分数输入至所述讽刺检测模块中进行讽刺检测，获得所述待测文档数据的讽刺检测结果，包括步骤：根据所述图像全局特征表示以及预设的图像权重参数计算算法，获得图像权重参数，将所述图像权重参数分别与所述不一致性分数中的第一不一致性分数以及第二不一致性分数进行点积处理，获得第一跨模态联合信息以及第二跨模态联合信息，其中，所述图像权重参数计算算法为：式中，为所述图像权重参数，为第四权重参数，为第四偏置参数；

根据所述第一跨模态联合信息、第二跨模态联合信息、图像全局特征表示、文本增强特征表示以及预设的讽刺概率分布向量计算算法，获得所述待测文档数据的预测讽刺概率分布向量，作为所述讽刺检测结果，其中，所述讽刺概率分布向量计算算法为：式中，y为所述预测讽刺概率分布向量，为第一跨模态联合信息，为第二跨模态联合信息，为第五权重参数，为第五偏置参数。

6.根据权利要求5所述的多模态讽刺检测方法，其特征在于，所述采用对比学习方法，根据若干组所述训练文档数据的训练文本全局特征表示、训练图像全局特征表示以及重构图像全局特征表示，获得第一总损失值，包括步骤：根据若干组所述训练文档数据的训练文本的训练文本全局特征表示、训练图像的训练图像全局特征表示以及预设的第一转置相乘算法，获得若干组训练文档数据的第一文本转置特征表示以及第一图像转置特征表示，其中，所述第一转置相乘算法为：式中，QT为第一文本转置特征表示，为第一可学习参数，为训练文本全局特征表示，为训练图像全局特征表示，QV为第一图像转置特征表示；

分别将所述训练数据集中的一组训练文档数据作为第一正样本，根据若干组训练文档数据的第一文本转置特征表示、第一图像转置特征表示以及预设的第一对比学习损失函数，获得基于所述第一文本转置特征表示的若干组训练文档数据的第一子损失值以及基于所述第一图像转置特征表示的若干组训练文档数据的第一子损失值，分别将基于所述第一文本转置特征表示的若干组训练文档数据的第一子损失值、基于所述第一图像转置特征表示的若干组训练文档数据的第一子损失值进行组合，构建基于所述第一文本转置特征表示的第一损失值以及基于所述第一图像转置特征表示的第一损失值，其中，所述第一对比学习损失函数为：式中，为基于所述第一文本转置特征表示的训练文档数据的第一子损失值，为所述第一正样本的第一文本转置特征表示，为第一正样本，τ为温度系数，K为所述训练数据集中的训练文档数据，为所述训练数据集中第i组训练文档数据的第一文本转置特征表示，为所述训练数据集中第i组训练文档数据，为基于所述第一图像转置特征表示的训练文档数据的第一子损失值，为所述第一正样本的第一图像转置特征表示，为所述训练数据集中第i组训练文档数据的第一图像转置特征表示；

将若干组所述训练文档数据的训练文本以及重构图像进行组合，构建增强数据集，所述增强数据集包括若干组增强文档数据，根据若干组所述增强文档数据的训练文本全局特征表示、重构图像全局特征表示以及预设的第二转置相乘算法，获得若干组增强文档数据的第二文本转置特征表示以及第二图像转置特征表示，其中，所述第二转置相乘算法为：式中，为第二文本转置特征表示，为重构图像全局特征表示，为第二图像转置特征表示；

分别将所述增强数据集中的一组增强文档数据作为第二正样本，根据若干组增强文档数据的第二文本转置特征表示、第二图像转置特征表示以及预设的第二对比学习损失函数，获得基于所述第二文本转置特征表示的若干组增强文档数据的第一增强子损失值以及基于所述第二图像转置特征表示的若干组增强文档数据的第一增强子损失值，分别将基于所述第二文本转置特征表示的若干组增强文档数据的第一增强子损失值以及基于所述第二图像转置特征表示的若干组增强文档数据的第一增强子损失值进行组合，构建基于所述第二文本转置特征表示的第一增强损失值、基于所述第二图像转置特征表示的第一增强损失值，其中，所述第二对比学习损失函数为：式中，为基于所述第二文本转置特征表示的增强文档数据的第一增强子损失值，为所述第二正样本的第二文本转置特征表示，为第二正样本，M为所述增强数据集中的增强文档数据，为所述增强数据集中第i组增强文档数据的第二文本转置特征表示，为所述增强数据集中第i组增强文档数据，为基于所述第二图像转置特征表示的增强文档数据的第一增强子损失值，为所述第二正样本的第二图像转置特征表示，为所述增强数据集中第i组增强文档数据的第二图像转置特征表示；

根据基于所述第一文本转置特征表示的第一损失值、基于所述第一图像转置特征表示的第一损失值、基于所述第二文本转置特征表示的第一增强损失值、基于所述第二图像转置特征表示的第一增强损失值以及预设的第一总损失值计算算法，获得第一总损失值，其中，所述第一总损失值计算算法为：式中，为第一总损失值，为基于所述第一文本转置特征表示的第一损失值，为基于所述第一图像转置特征表示的第一损失值，为基于所述第二文本转置特征表示的第一增强损失值，为基于所述第二图像转置特征表示的第一增强损失值，m为各个训练图像对应的重构图像的数目。

7.根据权利要求6所述的多模态讽刺检测方法，其特征在于，所述采用对比学习方法，根据若干组所述训练文档数据的训练文本模态嵌入表示以及训练图像模态嵌入表示，获得第二总损失值，包括步骤：分别将若干组所述训练文档数据的训练文本模态嵌入表示以及训练图像模态嵌入表示作为输入模态嵌入表示，根据若干组所述训练文档数据的输入模态嵌入表示中多层图注意力网络的各层的若干个节点的特征向量以及预设的负配对相似度权重计算算法，获得若干组所述训练文档数据的输入模态嵌入表示对应的负配对相似度权重矩阵，其中，所述负配对相似度权重矩阵包括若干个节点之间的负配对相似度权重参数，所述负配对相似度权重计算算法为：式中，为所述多层图注意力网络的第l层的第i个节点与第l+1层的第j个节点的负配对相似度权重参数，为第二可学习参数，为余弦相似度函数，为所述多层图注意力网络的第l层的第i个节点的特征向量，为所述多层图注意力网络的第l层的第j个节点的特征向量；

根据若干组所述训练文档数据的输入模态嵌入表示、输入模态嵌入表示对应的负配对相似度权重矩阵以及预设的第三对比损失函数，获得若干组所述训练文档数据对应的所述多层图注意力网络的若干层的若干个节点的第二子损失值，其中，所述第二子损失值包括基于所述训练文本模态嵌入表示的若干个节点的第二子损失值以及基于所述训练图像模态嵌入表示的若干个节点的第二子损失值，所述第三对比损失函数为：式中，为所述多层图注意力网络的第l层的第i个节点的第二子损失值，为所述多层图注意力网络的第l层的第i个节点与第l+1层的第i个节点之间的相关系数，为所述多层图注意力网络的第l层的第i个节点与第l层的第j个节点之间的相关系数，为所述多层图注意力网络的第l层的第i个节点与第l+1层的第j个节点之间的相关系数；

根据若干组所述训练文档数据对应的所述多层图注意力网络的若干层的若干个节点的第二子损失值以及预设的第二损失值计算算法，获得基于所述输入模态嵌入表示的若干组所述训练文档数据的第二损失值，其中，所述第二损失值包括基于所述训练文本模态嵌入表示的若干组所述训练文档数据的第二损失值以及基于所述训练图像模态嵌入表示的若干组所述训练文档数据的第二损失值，其中，所述第二损失值计算算法为：式中，为基于所述输入模态嵌入表示的所述训练文档数据的第二损失值，L为所述多层图注意力网络的层数，N为所述多层图注意力网络的各个层中节点的数目；

将基于所述训练文本模态嵌入表示的若干组所述训练文档数据的第二损失值、基于所述训练图像模态嵌入表示的若干组所述训练文档数据的第二损失值进行累加，获得所述第二总损失值。

8.根据权利要求7所述的多模态讽刺检测方法，其特征在于，所述采用交叉熵方法，根据若干组所述训练文档数据的预测讽刺概率分布向量以及真实讽刺概率分布向量，获得第三总损失值，包括步骤：根据若干个所述训练文档数据的预测讽刺概率分布向量、真实讽刺概率分布向量以及预设的交叉熵损失函数，获得若干个所述训练文档数据的第三损失值，将若干个所述训练文档数据的第三损失值进行累加，获得所述第三总损失值，其中，所述交叉熵损失函数为：式中，为第三损失值，K为所述训练数据集中训练文档数据的数目，为第i个训练文档数据的真实讽刺概率分布向量，为第i个训练文档数据的预测讽刺概率分布向量。

9.一种多模态讽刺检测装置，其特征在于，包括：

数据获取模块，用于获得待测文档数据以及预设的讽刺检测模型，其中，所述待测文档数据包括待测文本以及待测图像，所述讽刺检测模型包括特征提取模块、文本特征增强模块、跨模态交互模块以及讽刺检测模块；

获得训练数据集，其中，所述训练数据集包括若干组训练文档数据，所述训练文档数据包括训练文本以及训练图像；

全局特征提取模块，用于将所述待测文档数据输入至所述目标讽刺检测模型的特征提取模块中进行特征提取，获得所述待测文本对应的文本全局特征表示以及待测图像对应的图像全局特征表示；

特征增强模块，用于将所述文本全局特征表示以及图像全局特征表示输入至所述文本特征增强模块中进行特征增强，获得文本增强特征表示；

不一致性分数计算模块，用于将所述文本全局特征表示、文本增强特征表示以及图像全局特征表示输入至所述跨模态交互模块中进行不一致性评估，获得不一致性分数；

讽刺检测处理模块，用于将所述文本增强特征表示、图像全局特征表示以及不一致性分数输入至所述讽刺检测模块中进行讽刺检测，获得所述待测文档数据的讽刺检测结果。