1.一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,包括以下步骤:步骤1:提取待检测视频的关键帧组成图像组;
步骤2:将图像组的首帧输入两流网络中的空间流提取空间信息作为空间特征;
步骤3:将图像组的剩余帧分别与首帧差分以获取差图,并组成差图序列输入两流网络中的时间流提取帧间不一致性作为时间特征;
步骤4:将提取到的空间特征和时间特征融合,利用动态路由算法评估视频的真实性;
其中,所述两流网络包括空间流和时间流;所述空间流由预训练的ResNet50网络的第一序列到第五序列的部分和主胶囊网络构成,用于提取空间特征;所述时间流由空间金字塔池化网络和GRU网络构成,用于提取时间特征;所述空间特征作为辅助信息赋值给GRU网络的隐状态;所述GRU网络用于分析时间相干性;所述两流网络采用Adam优化算法训练,损失函数采用交叉熵损失函数,其表达式如下,其中,L为损失值,y与 分别表示样本标签与预测标签。
2.如权利要求1所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,在所述步骤1中,以固定尺寸裁剪获取视频帧中的人脸区域图像,对相邻帧间的人脸区域图像进行差分,根据帧间差分的平均强度提取人脸区域变化最大的10帧人脸区域图像作为关键帧,并按时序组成图像组以表示该段视频。
3.如权利要求2所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,所述帧间差分法的计算公式如下,absDiffi=Fi‑Fi‑1,
其中,Fi、Fi‑1分别表示第i帧的人脸区域图像与第i‑1帧的人脸区域图像,absDiffi表示第i帧人脸区域图像与第i‑1帧人脸区域图像的差分;所述帧间差分的平均强度的计算表达式如下,其中,absDiffi(x,y)为absDiffi坐标(x,y)处的数值,width、height分别表示人脸区域图像的宽与高,diffMeani表示第i帧人脸区域图像与第i‑1帧人脸区域图像差分的平均强度。
4.如权利要求1所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,所述主胶囊网络的胶囊结构相同,包括二维卷积层、统计池层和一维卷积层,其中统计池层用于计算每个卷积核的均值和方差;所述均值的计算表达式如下,方差的计算表达式如下,其中,μk表示第k层卷积核的均值,Ikij表示第k层卷积核(i,j)处的数值,W、H分别表示卷积核的宽和高, 表示第k层卷积核的方差。
5.如权利要求1所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,所述空间金字塔池化网络的输出为一维特征向量,特征向量的长度length由金字塔层数N决定, 其中系数3为差图的维度。
6.如权利要求1所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,所述步骤3中的差图表示为Diffm‑1=Fm‑F1,m=2,…,10,
其中,Diffm‑1表示第m‑1个差图,Fm与F1分别表示图像组中的第m帧与首帧。
7.如权利要求1所述的一种基于图像组与两流网络的Deepfake视频检测方法,其特征在于,在所述步骤4中,将空间特征与时间特征拼接融合通过动态路由算法传递至数字胶囊网络;所述数字胶囊网络的输出向量经softmax后取均值得到最终的网络输出向量表示视频为Deepfake视频的概率, 表示视频为真实视频的概率,若 则网络预测标签 待检测视频为Deepfake视频,若 则网络预测标签 待检测视频为真实视频。