1.一种基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,所述方法包括如下步骤:步骤1、利用预训练语言模型与双向长短时记忆网络相结合,对帖子进行特征提取以得到帖子文本的语义特征;利用预训练的视觉模型对帖子图片进行特征提取以获取帖子图片的图像视觉特征;
步骤2、利用错误级别分析方法对帖子图片进行差异分析以获得差异分析图像,利用预训练视觉模型对差异分析图像进行篡改特征提取以得到图像篡改特征;
步骤3、对帖子图片进行反向搜索以获取目标新闻报道,并对目标新闻报道进行筛选以得到文本筛选证据,利用帖子文本进行图片的搜索以获取目标图片信息,并将目标图片信息进行筛选以得到图片筛选证据;
步骤4、将文本筛选证据以及图片筛选证据通过多头交叉注意力机制进行交互对齐以得到对齐的文本证据特征与对齐的图片证据特征,并验证对齐的文本证据特征和对齐的图片证据特征与输入帖子之间的一致性;
步骤5、利用EGTR算法对帖子图片进行计算以生成视觉场景图,利用Flan‑T5模型对帖子文本进行处理以生成文本场景图;
步骤6、将视觉场景图和文本场景图依次与知识蒸馏相结合以获得目标背景知识,并将目标背景知识融入视觉场景图和文本场景图中以得到知识增强的视觉场景图与知识增强的文本场景图;
步骤7、利用图注意力网络对知识增强的视觉场景图与知识增强的文本场景图进行图文语义匹配,以获取视觉场景图与文本场景图的图文语义匹配结果;
步骤8、利用特征分层融合算法对文本的语义特征、对齐的文本证据特征、图像视觉特征、对齐的图片证据特征、图像篡改特征和图文语义匹配特征之间进行自适应的分层融合以得到分层最终融合结果,其中,特征分层融合算法是基于门控神经网络构建的;
步骤9、将分层最终融合结果输入多层感知机以获得结果分类。
2.根据权利要求1所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤1中,在利用预训练语言模型与双向长短时记忆网络相结合,对帖子进行特征提取以得到帖子文本的语义特征的步骤中,文本语义特征计算的过程对应存在的关系式为:;
其中, 表示文本语义特征, 表示输入的文本序列, 表示语义时序特征提取操作, 表示文本语义特征提取操作。
3.根据权利要求2所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在利用预训练的视觉模型对帖子图片进行特征提取以获取帖子图片的图像视觉特征的步骤中,图像视觉特征的计算过程对应存在的关系式为:;
其中, 表示图像视觉特征, 表示图像的视觉特征提取操
作,表示输入的图像。
4.根据权利要求3所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤2中,在利用错误级别分析方法对帖子图片进行差异分析以获得差异分析图像,利用预训练视觉模型对差异分析图像进行篡改特征提取以得到图像篡改特征的步骤中,图像篡改特征的计算过程对应存在的关系式为:;
其中, 表示ELA图像篡改特征, 表示输入的ELA图像, 表示对所有区块特征求取平均值。
5.根据权利要求4所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤4中,在将文本筛选证据以及图片筛选证据通过多头交叉注意力机制进行交互对齐以得到对齐的文本证据特征与对齐的图片证据特征,并验证对齐的文本证据特征和对齐的图片证据特征与输入帖子之间的一致性的步骤中,验证文本筛选证据和图片筛选证据与输入帖子之间的一致性的计算过程对应存在的关系式为:;
其中, 表示输入序列, 表示和 不同的输入序列, 表示多头交叉注意力机制操作, 表示拼接操作, 表示第一个注意力头, 表示第 个注意力头, 表示需要学习的参数矩阵, 表示第 个注意力头, 表示交叉注意力机制操作, 表示查询, 表示键, 表示值, 表示第 个注意力头的权重矩阵, 表示第 个注意力头的权重矩阵, 表示第 个注意力头的权重矩阵, 表示归一化操作, 表示键值维度, 表示转置键, 表示矩阵的转置。
6.根据权利要求5所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤7中,利用图注意力网络对知识增强的视觉场景图与知识增强的文本场景图进行图文语义匹配,以获取视觉场景图与文本场景图的图文语义匹配结果具体包括如下子步骤:将知识增强的视觉场景图与文本场景图依次输入图注意力网络,并通过引入关系特征进行机制处理,以对知识增强的视觉场景图与文本场景图进行学习得到学习的视觉场景图与以及学习的文本场景图;
将学习的视觉场景图与学习的文本场景图中所有节点的特征向量依次进行平均池化机制处理,以分别得到视觉场景图的整图特征与文本场景图的整图特征;
将视觉场景图的整图特征与文本场景图的整图特征进行拼接,并输入至全连接神经网络以得到视觉场景图与文本场景图的图文语义匹配结果。
7.根据权利要求6所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在将知识增强的视觉场景图与文本场景图依次输入图注意力网络,并通过引入关系特征进行机制处理,以对知识增强的视觉场景图与文本场景图进行学习得到学习的视觉场景图与以及学习的文本场景图的步骤中,学习的视觉场景图与学习的文本场景图的计算过程对应存在的关系式为:;
其中, 表示图注意力机制操作, 表示更新后的特征,表示拼接操作, 表示多头注意力的个数, 表示节点 的邻节点集合, 表示在第 个注意力类型中邻接节点 对节点 的注意力权重, 表示节点的嵌入表示学习参数矩阵, 表示边的嵌入表示学习参数矩阵, 表示残差结构参数矩阵, 表示节点 的特征表示, 表示节点 的特征表示, 表示边 的特征表示, 表示归一化操作,表示激活函数, 表示注意力权重的转置。
8.根据权利要求7所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在将视觉场景图的整图特征与文本场景图的整图特征进行拼接,并输入至全连接神经网络以得到视觉场景图与文本场景图的图文语义匹配结果的步骤中,视觉场景图与文本场景图的图文语义匹配结果的计算过程对应存在的关系式为:;
其中, 表示最终整图特征, 表示视觉场景图, 表示节点的初始特征, 表示边的初始特征, 表示最终整图特征, 表示文本场景图, 表示图文语义匹配特征,表示激活函数, 表示可以学习的参数矩阵。
9.根据权利要求8所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤8中,利用特征分层融合算法对文本的语义特征、对齐的文本证据特征、图像视觉特征、对齐的图片证据特征、图像篡改特征和图文语义匹配特征之间进行自适应的分层融合以得到分层最终融合结果具体包括如下子步骤:利用特征分层融合算法将文本语义特征与对齐的文本证据特征进行自适应融合以得到第一层特征融合结果;
其中,第一层特征融合结果的计算过程对应存在的关系式如下:
;
;
其中, 表示融合权重, 表示激活函数, 表示拼接操作, 表
示文本语义特征, 表示对齐的文本证据特征, 表示第二个需要学习的参数矩阵,表示第一层特征融合结果;
利用特征分层融合算法将图像视觉特征与对齐的图片证据特征进行自适应融合以得到第二层特征融合结果;
其中,第二层特征融合结果计算过程对应存在的关系式如下:
;
其中, 表示第三个需要学习的参数矩阵, 表示图像视觉特征, 表示对齐的图片证据特征, 表示第二层特征融合结果;
利用特征分层融合算法将图片篡改特征与图文语义匹配特征进行自适应融合以得到第三层特征融合结果;
其中,第三层特征融合结果的计算过程对应存在的关系式如下:
;
其中, 表示第三层特征融合结果, 表示第四个需要学习的参数矩阵, 表示图文语义匹配特征, 表示图片篡改特征;
利用特征分层融合算法将第一层特征融合结果与第二层特征融合结果和第三层特征融合结果进行自适应融合以得到最终融合结果;
其中,第三层特征融合结果的计算过程对应存在的关系式如下:
;
其中, 表示最终融合结果, 表示第五个需要学习的参数矩阵, 表示第六个需要学习的参数矩阵, 表示第七个需要学习的参数矩阵, 表示第二个融合权重,表示第三个融合权重, 表示第四个融合权重。
10.根据权利要求9所述的基于双证据增强与图文相似度感知的多模态谣言检测方法,其特征在于,在所述步骤9中,在将分层最终融合结果输入多层感知机以获得结果分类的步骤中,获得结果分类的计算过程对应存在的关系式为:;
其中, 表示预测输出结果, 表示线性层的参数, 表示最终融合结果, 表示线性层的偏置顶, 表示多层感知机机制操作。