1.一种基于全局上下文结构差异的人脸伪造检测方法,其特征在于,包括以下步骤:步骤1、将人脸图像输入到频域增强模块中,先经过离散余弦变换DCT进行离线的频率域转换,随后经过可学习网络进行频率域的特征增强,得到一张经过增强后的频域人脸图像,从而最大化保留被压缩过的人脸图像中的伪造伪影;
步骤2、将所述频域增强模块处理后的人脸图像以及原RGB图像输入到DGC‑Net人脸重构‑分类学习网络中,通过自预测卷积块,即通过自监督学习策略训练一个去掉中心的k×k卷积核,促使其学习真实人脸中全局上下文结构信息,得到相应的卷积参数,随后利用学习后的自预测卷积块来预测伪造人脸的伪造区域;
步骤3、将得到的伪造区域与人脸图像做减法得到一张mask,随后与在人脸重构‑分类学习网络中分类分支编码器得到的特征图相乘,再经过全连接层,从而判断该图像是否为伪造图像;
所述步骤1将人脸图像输入到频域增强模块中,得到一张经过增强后的频域人脸图像,从而最大化保留被压缩过的人脸图像中的伪造伪影,具体包括以下步骤:A1、将训练图像输入到频域增强模块,首先将人脸图像分为8×8块,随后将每个块进行DCT和IDCT转换到频域空间中,具体转换过程如下:其中,x表示转换之前图像的每个块,表示转换后图像的每个块;
A2、将转换后图像块,馈送到块内增强模块,首先下采样将信号分为两部分,低频信号和高频信号 k表示大小,为了增强相应频段的信号,将低频信号和高频信号 分别馈送入两个多头自注意MHSA中,并将它们的输出串联以恢复原始形状;然后另一个MHSA协调所有不同的频带,新形成的信号表示 MHSA用于捕获输入特征中每个频谱之间的相关性;
A3、将块内增强后的结果,重新组合之后馈送到块间增强模块中,对于DCT,块之间是相互独立的,所述块内增强模块只增强了单个块的频域特征,为了帮助网络识别伪造伪影的位置,还在块之间建立连接;首先将 重塑为 然后,用MHSA来建模所freq
有的块之间的关系;最后,上采样并得到增强的频率信号x ;
所述频域增强模块采用离散余弦变换DCT进行离线的频率域转换,得到离线余弦变换后的频域图像,具体包括以下步骤:B1、输入图像首先被划分为8×8的patch,得到 表示
某一通道的patch,每个patch经离散余弦变换DCT处理成频谱 其中每个值对应某一频带的强度,其中离散余弦变换过程公式化如下:式(2)中X(i,j)是图像坐标(i,j)上的值,c(u)和c(v)的目的是使DCT矩阵正交,N是每个块的大小,u,v=0,1,2…N‑1;式(3) 是变换(u,v)的一个基函数;
B2、通过对频谱进行平坦化和整形,将相同频率的所有分量归入一个通道,形成新的输入;其过程如下公式所示:其中公式(4)的 代表每个patch的频域特征图,flatten(·)表示打平操作,代表将所有的di,j打平后的结果;
所述步骤2具体包括以下步骤:
C1、将输入人脸图像输入到人脸重构‑分类学习网络,人脸重构‑分类学习网络以Xception结构作为基础网络结构,对输入图像编码提取特征,获取各层特征F1,F2,F3,F4,然后通过解码器的上采样和卷积操作逐步恢复特征映射图到原始输入图像的大小,从而实现端到端的人脸图像的重构学习分支,将重构后的图像与输入图像引入了重构损失,其公式如下:其中R为小批量样本集,|R|为R的基数, 是重建后的图像,xi是原始输入图像;
C2、将最后一层特征F4,通过通道均值μ(·)和方差σ(·),在计算对比损失之前,需要一个非线性投影头gf(·);因此,在编码器和投影头之后,得到了图像的嵌入特征,通过最小化对比损失,通过强迫来自正样本的表征相似而来自负样本的表征不同来学习,其公式为:‑
其中,τ是超参数,Λ 是批处理中其余的集合,且 分别表示正样本对的特征表示;
C3、在训练阶段,自预测卷积块学习真实人脸最后一层特征F4全局上下文结构信息,使得在验证阶段可以将学习后的自预测卷积块作用于伪造人脸特征上,预测出伪造人脸上下文结构的不一致信息;
所述步骤C3具体包括:
D1、屏蔽卷积层的可学习参数位于感受野的角落,由子核
表示,其中 是定义子核大小的超参数,c是输入通道的数量;每个核Ki位于距离感受野中心的掩蔽区域的距离 处,其由 表示,因此,感受野的空间大小k计算如下:
k=2k′+2d+1; (7)将子核应用于所述真实人脸最后一层特征F4上,学习真实人脸的全局上下文结构信息;
D2、掩蔽卷积的输出由信道注意模块处理,该信道注意模块计算每个信道的注意分数;
通过这种机制,学习使用全局信息来根据需要选择性地强调或抑制重建图,并在块的输入和输出之间实现非线性处理;信道注意模块通过在每个信道上执行的全局池化将特征映射Z减少到向量 随后,如下计算比例因子的向量其计算公式如下:
s=σ(W2·δ(W1·z)) (8)其中σ是sigmoid激活,δ是ReLU激活, 和 分别表示两个连续的全连接层的权重矩阵;第一个全连接层由 神经元组成,通过r的减少比率压缩信息;
D3、引入了一个自监督重建损失,其计算公式如下:
其中G(·)表示对掩盖区域的重建过程, 表示重建后的结果,m表示Ground‑Truth的值;
所述步骤D1训练自预测卷积模块,将子核应用于所述真实人脸最后一层特征F4上,学习真实人脸的全局上下文结构信息,具体包括:E1、训练阶段, 是掩蔽卷积层的真实人脸输入张量,其中c是通道的数量,h和w分别是高度和宽度;在输入X的某个位置中利用定制内核执行的卷积运算仅考虑来自子内核Ki所处的位置的输入值,忽略其他信息;每个Ki与对应输入之间的卷积运算的结果被求和为单个数字;所得值表示位于与M相同位置处的预测;应用具有一个滤波器的卷积产生单个激活图;因此,仅能够在当前位置处从掩码向量M预测一个值;为了预测M中每个通道的值,引入了c个掩蔽卷积滤波器,每个滤波器预测来自不同通道的掩蔽信息;在输入周围添加k+d个像素的零填充,并将步幅设置为1,这样输入中的每个像素都用作掩码信息;输出张量Z的空间维度与输入张量X的空间维度相同;
E2、验证阶段, 是掩蔽卷积层的真实人脸或伪造人脸的输入张量,将训练阶段学习后的卷积滤波器应用于张量X上,真实人脸会得到正确的预测,伪造人脸的部分区域会得到错误的预测。
2.根据权利要求1所述的一种基于全局上下文结构差异的人脸伪造检测方法,其特征在于,所述步骤3将得到的伪造区域与人脸图像做减法得到一张mask,随后与在人脸重构‑分类学习网络中分类分支中判断该图像是否为伪造图像,具体包括:F1、将真实人脸图像和伪造人脸图像重构的结果 和 进行相减操作,得到一个伪造区域的mask,具体计算如下:其中F(·)代表相减结果小于等于0,对应像素为0;若大于0,对应像素为1;
F2、将得到mask与伪造人脸图像经过编码器最后一层的特征F4相与,迫使分类网络关注于伪造区域部分,除此之外,还引入了交叉熵损失函数 用于二分类。
3.根据权利要求2所述的一种基于全局上下文结构差异的人脸伪造检测方法,其特征在于,将四种损失进行相加操作,得到最终的图像伪造检测损失 具体包括:通过将子预测模块,重构‑分类学习网络整合到一个统一的网络框架中,一个基于全局上下文结构差异的人脸伪造检测网络因此形成,其参数可以通过Ltotal进行优化:其中,λ1,λ2和λ3表示总的损失函数中的超参数。
4.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至
3任一项所述基于全局上下文结构差异的人脸伪造检测方法。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于全局上下文结构差异的人脸伪造检测方法。