1.一种基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,所述方法包括如下步骤:步骤1、利用光学字符识别技术提取视频中的字幕,再将字幕与视频标题进行拼接,得到完整的文本信息;
基于完整的文本信息,通过预训练语言模型进行提取,得到文本的语义特征;
步骤2、利用视频编辑的开源工具包从视频中提取得到语音信息,再利用预训练的语音模型对语音信息进行提取,得到语音的情感特征;
步骤3、以计算相邻帧之间差异的方式提取视频中的关键帧,再利用预训练的滑动窗口模型对关键帧进行提取,得到视觉特征;
步骤4、利用预训练的立场检测模型提取视频评论的立场特征,再结合视频的立场特征以及评论的权重值得到视频的全局评论特征;
步骤5、提取视频发布者的社交特征,再利用视频发布者的社交特征得到用户的社交特征;
步骤6、利用无偏的场景图生成法,将视频的关键帧序列转化为场景图序列,通过场景图注意力网络对场景图序列进行提取,得到时序场景图特征;
步骤7、将文本的语义特征、语音的情感特征、视觉特征、视频的全局评论特征、用户的社交特征和时序场景图特征进行融合,得到全局多模态特征表示;
步骤8、将全局多模态特征表示输入多层感知机,得到预测结果。
2.根据权利要求1所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤1中,基于完整的文本信息,通过预训练语言模型进行提取,得到文本的语义特征,对应过程存在的关系式为:;
其中, 表示文本的语义特征, 表示完整的文本信息, 表示经过预训练语言模型提取处理。
3.根据权利要求2所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤2中,利用视频编辑的开源工具包从视频中提取得到语音信息,再利用预训练的语音模型对语音信息进行提取,得到语音的情感特征,具体步骤如下:对语音信息进行降噪处理,得到降噪后的语音信息,对应过程存在的关系式为:;
其中, 表示降噪后的语音信息, 表示经过降噪函数处理, 表示语音信息;
对降噪后的语音信息进行归一化处理,得到归一化后的语音信息,对应过程存在的关系式为:;
其中, 表示归一化后的语音信息, 表示经过归一化函数处理;
将归一化后的语音信息输入预训练的语音模型,得到语音的情感特征,对应过程存在的关系式为:;
其中, 表示语音的情感特征, 表示经过预训练的语音模型处理。
4.根据权利要求3所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤3中,以计算相邻帧之间差异的方式提取视频中的关键帧,再利用预训练的滑动窗口模型对关键帧进行提取,得到视觉特征,具体步骤如下:对视频帧序列进行帧差计算,得到相邻帧之间的差异值,对应过程存在的关系式为:;
其中, 表示第 帧和第 帧之间的差异值, 表示经过帧间差异计算函数的处理, 表示视频的第 帧, 表示视频的第 帧;
根据差异值,通过设定的差异值阈值,对关键帧进行筛选,得到关键帧序列;
将关键帧序列输入预训练的滑动窗口模型,以得到关键帧的视觉特征,对应过程存在的关系式为:;
其中, 表示第 个关键帧的视觉特征, 表示经过预训练的滑动窗口模型处理, 表示第 个关键帧;
集合所有关键帧的视觉特征,得到关键帧的视觉特征集合;
将关键帧的视觉特征集合通过自注意力机制处理,得到视觉特征,对应过程存在的关系式为:;
其中, 表示视觉特征, 表示经过自注意力机制处理, 表示关键帧的视觉特征集合。
5.根据权利要求4所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤4中,利用预训练的立场检测模型提取视频评论的立场特征,再结合视频的立场特征以及评论的权重值得到视频的全局评论特征,具体步骤如下:收集与视频相关的评论数据集,评论数据集中每条评论由评论的文本内容和获赞数量组成;
利用预训练的立场检测模型对每条评论中的评论文本内容进行编码,得到立场特征,对应过程存在的关系式为:;
其中, 表示立场特征, 表示通过预训练的立场检测模型处理,表示第 条评论的文本内容;
根据每条评论的获赞数量计算评论的权重值,对应过程存在的关系式为:;
其中, 表示第 条评论的权重值, 表示第 条评论的获赞数量, 表示视频总的评论数量, 表示第 条评论的获赞数量;
结合评论的权重值对所有立场特征进行加权求和,得到视频的全局评论特征,对应过程存在的关系式为:;
其中, 表示视频的全局评论特征。
6.根据权利要求5所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤5中,提取视频发布者的社交特征,再利用视频发布者的社交特征得到用户的社交特征,具体步骤如下:从视频的元数据中获取发布者的相关属性,再根据发布者的相关属性构建用户初始特征向量,对应过程存在的关系式为:;
其中, 表示用户初始特征向量, 表示粉丝数量, 表示朋友数量,表示发布视频数量, 表示发布者的交互特性;
对用户初始特征向量进行归一化处理,得到用户的社交特征,对应过程存在的关系式为:;
其中, 表示用户的社交特征。
7.根据权利要求6所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤6中,利用无偏的场景图生成法,将视频的关键帧序列转化为场景图序列,通过场景图注意力网络对场景图序列进行提取,得到时序场景图特征,具体步骤如下:对关键帧序列应用预训练的目标检测模型以检测每个关键帧中的视觉对象,其中,每个视觉对象包括类别标签和边界框,对应过程存在的关系式为:;
其中, 表示第 个关键帧中的视觉对象, 表示经过预训练的目标检测模型的检测处理;
对视觉对象之间的空间关系和语义关系进行建模,以生成视觉对象之间的初步关系图;
对视觉对象之间的初步关系图进一步优化,生成关键帧对应的场景图;
将所有关键帧对应的场景图按时间顺序排列,以构成场景图序列;
基于场景图序列中的节点和关系,得到查询关键词集合,对应过程存在的关系式为:;
其中, 表示查询关键词集合, 均表示查询关键词, 表示节点, 表示关系;
利用查询关键词集合在外部的知识图谱,检索知识三元组;
对知识三元组进行筛选,保留与场景图中对象和关系相关的知识;
将与场景图中对象和关系相关的知识作为补充节点加入到场景图序列中,得到知识扩充后的场景图序列;
利用场景图序列中的节点构建场景图注意力网络,构建过程的关系式为:;
其中, 表示场景图注意力网络, 表示节点 聚合更新后的特征, 表示多头注意力的个数,表示拼接操作, 表示节点 的邻接节点集合, 表示在第 个注意力类型中邻接节点 对节点 的注意力权重, 、 和 均表示参数矩阵, 表示节点的特征表示, 表示节点 的特征表示, 表示边 的特征表示, 表示经过归一化操作, 表示经过激活函数处理, 表示注意力权重的转置;
基于循环神经网络的结构,将前一时刻的场景图注意网络的输出作为下一时刻场景图注意网络的输入,以构建动态场景图注意力网络;
将知识扩充后的场景图序列输入动态场景图注意力网络,得到时序场景图特征,对应过程存在的关系式为:;
其中, 表示时序场景图特征, 表示通过自注意力机制处理,表示经过动态场景图注意力网络处理, 均表示知识扩充后的场景图。
8.根据权利要求7所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤7中,将文本的语义特征、语音的情感特征、视觉特征、视频的全局评论特征、用户的社交特征和时序场景图特征进行融合,得到全局多模态特征表示,具体步骤如下:使用全连接神经网络将文本的语义特征、语音的情感特征、视觉特征、视频的全局评论特征、用户的社交特征和时序场景图特征对齐到同一特征空间,得到对齐后的特征表示,对应过程存在的关系式为:;
其中, 表示对齐后的特征表示, 表示通过全连接神经网络处理; 表示文本的语义特征 、语音的情感特征 、视觉特征 、视频的全局评论特征 、用户的社交特征和时序场景图特征 中的任意一种;
基于对齐后的特征表示,通过自注意力机制处理以得到模态权重,对应过程存在的关系式为:;
其中, 表示模态权重, 表示经过评估模态特征重要性函数的处理;
根据模态权重,对对齐后的特征表示进行加权求和,得到全局多模态特征表示,对应过程存在的关系式为:;
其中, 表示全局多模态特征表示。
9.根据权利要求8所述的基于知识增强图注意力网络的虚假新闻视频检测方法,其特征在于,在所述步骤8中,将全局多模态特征表示输入多层感知机,得到预测结果,对应过程存在的关系式为:;
其中, 表示预测结果, 表示通过多层感知机处理, 表示线性层参数, 表示偏置项。