1.一种基于噪声感知的可泛化深度伪造图像检测方法,其特征是,包括以下步骤:S110.获取待检测的人脸图像;
S120.将面部图像输入预训练的深度伪造图像检测模型,提取图像的深度伪造证据特征;深度伪造图像检测模型通过自适应噪声感知注意力模型,挖掘图像中的噪声信息作为鉴伪证据;
具体过程如下:
通过噪声增强模块来使得模型捕获与图像本质噪声相关的信息,利用非局部一致性模块来分析同源区域的相似性以及异源区域的不一致性,使用多尺度融合模块来融合不同尺度的特征信息;
深度伪造图像检测模型通过基于局部噪声数据增强的模型泛化机制,使用局部噪声数据增强流来生成更多样的训练数据,使得模型能够挖掘更鲁棒、伪造方法无关、可泛化的图像伪造证据;
伪造区域中的噪声分布与原始图像区域中的噪声分配高度不一致,但是原始图像区域之间的噪声分布高度一致,检测方法包含自适应噪声感知注意力模型和基于局部噪声数据增强的模型泛化机制,自适应噪声感知注意力模型包含噪声增强模块、非局部一致性模块、多尺度融合模块以及用于监督模型训练优化的损失函数;
自适应噪声感知注意力模型进行图像噪声层面的鉴伪证据挖掘方法的噪声增强包括如下过程:
将输入图像表示为 ,以提取用于最终分类器的特征图;
将从主干网络提取的特征定义为 ,其中 是特征提取器,由于传统的卷积神经网络包含多个不同尺度的阶段,因此将特征提取过程的公式重写为 ,其中 是第 个主干层,具有不同深度的主干层可以提取不同尺度的特征信息,将传统的主干 分为四个阶段,即高、中、低和最终,以 、 、 和 为代表,由于这些噪声增强模块具有相同的结构,使用上标 来表示不同尺度的噪声增强模块;
数字图像的噪声定义为: 其中 表示像素的位置, 是真实世界的不含任何噪声的理想图像,是在图像采集、传输和其他过程中产生的唯一噪声;
将噪声增强模块Embedding到主干层中,以挖掘和增强图像与特征中的噪声信息,具体方法如下:a. 表示输入特征 的噪声信息,其中 是一种去噪算法,通过在空间上减去输入特征和去噪特征;
b. 使用sigmoid函数将特征噪声 映射到 ;
c. 将特征噪声通过 卷积层中,以整合不同通道上的噪声信息并调整噪声信息的强度;
d. 通过残差连接将输入特征图 加到增强的噪声图中,以获得噪声增强特征图,用表示,并用作后续模块的输入;
e. 整个过程定义为:
,
,
其中,表示sigmoid函数, 表示核大小为 的卷积层;
利用非局部一致性模块来分析同源区域的相似性以及异源区域的不一致性具体过程如下:
特征图首先沿空间维度以 的大小划分为 的块,用进行表示,其中 表示 尺度的第 个块的特征信息;
应用块Embedding将特征块映射到相同的空间中 ,其中 是Embedding的输出维度,公示表示如下:
,
其中, 是块Embedding算子, 是核大小为 和条形为 的卷积层, 是Embedding向量,是用于表示不同块位置差异的位置Embedding,是自适应调整块Embedding和位置Embedding比例的可学习参数;
预测的非局部一致性矩阵 可以通过如下公示计算得到:,
其中, 是第 个块和第 个块之间的预测一致性,sigmoid函数用于将输出限制为,若 越接近0,则表示第 个块和第 个块的一致性就越低,相反,若 越接近1,则表示第 个块和第 个块的一致性就越高;
通过自适应噪声感知注意力模型进行多尺度信息交互融合的过程如下:将 调整为 大小的三维张量, 表示为非局部一致性,使用由 卷积层、批处理归一化层和非线性激活层ReLU组成的轻量注意力块,将 中的 通道的信息压缩为 通道,用一致性映射 表示;
使用双线性插值将压缩的 上采样到与特征图 相同的大小;
使用元素乘运算将信息实现了整合,最终得到融合特征最终特征 和来自3个尺度的一致性矩阵 被连接为最终的特征 用于最终的深度伪造检测器的判别;
总损失函数定义为: , 是上述模型的总损失函数, ,分别表示上述的分类损失和一致性损失,二者通过损失系数 , 进行权重控制;
获得ground truth的一致性图 ,其表示为:,其中 表示第 个块和第 个块的基本真
值一致性,对于每个 ,若接近1,则表示两个块一致性较高,否则接近0,通过以下公式计算一致性损失:,
其中 表示不同的标度, 表示不同的块, 表示二值交叉熵损失,用于监督模型的非局部一致性 与ground truth 的一致性图 之间的距离;
S130.将所述特征作为伪造证据用于判别面部图像是否经过深度伪造,并最终返回鉴别结果。
2.根据权利要求1所述的基于噪声感知的可泛化深度伪造图像检测方法,其特征在于,深度伪造图像检测模型训练的方法具体包括如下步骤:S1201.从包含人像的视频数据集中获取待鉴别的人脸图像;通过预训练的人脸检测模型对原始视频图像进行面部关键点的信息进行标注,得到对应的人脸图像和面部关键点位置信息;
S1202.通过自适应噪声感知注意力模型,挖掘图像中的噪声信息作为鉴伪证据;
通过噪声增强模块,增强模型对输入图像中噪声信息的感知能力;通过将噪声增强模块嵌入骨干网络,使得整个骨干网络具有噪声感知能力,并获取多个尺度的噪声增强后的图像特征;通过非局部一致性模块,根据噪声增强的图像特征获取局部区域之间的不一致性信息;通过多尺度融合模块,根据深层不一致性信息和浅层噪声增强特征融合得到融合后的图像特征;上述非局部不一致性信息和多个尺度的图像特征,通过全局平均池化、拼接、全连接分类器,获取最终的鉴别结果;
S1203.通过基于局部噪声数据增强的模型泛化机制,根据输入的图像,使用局部噪声数据增强流来生成更多样的训练数据,使得模型能够挖掘更鲁棒、伪造方法无关、可泛化的图像伪造证据;
S1204.利用损失函数对噪声感知的图像特征、非局部不一致性信息进行联合训练约束;
S1205.获取训练好的深度伪造图像检测模型。
3.根据权利要求2所述的基于噪声感知的可泛化深度伪造图像检测方法,其特征在于,人脸图像、人脸关键点位置信息的预获取方法,包括以下步骤:从包含人像的视频数据集中获取待处理的包含人像的图像;
通过预训练的人脸检测模型对原始包含人像的图像进行面部关键点位置信息标注,得到对应的人脸关键点信息;
获取人脸图像:利用人脸关键点信息定位原始图像中人脸区域的局部位置;通过执行仿射变换将不同的图像人脸矫正成同一视角,并变换成同一大小;根据伪造数据的掩码视频得到伪造区域掩码图像,原始区域部分设置为0,伪造区域部分设置为1;
获取人脸关键点位置信息:通过预训练的人脸检测模型对原始包含人像的图像进行面部关键点位置信息标注,位置信息共包含68个关键点,关键点在图像中的位置用一个68*2的矩阵表示;将人脸关键点位置信息与仿射变换矩阵相乘,获取人脸图像对齐后的关键点位置信息,同样用68*2的矩阵进行表示。
4.根据权利要求1所述的基于噪声感知的可泛化深度伪造图像检测方法,其特征在于,通过基于局部噪声数据增强的深度伪造图像检测模型泛化机制构建过程如下:给定一个真实的面部图像 ,取其68个面部关键点,并基于面部几何学,使用面部关键点将面部图像划分为9个关键区域:‘左边缘’、‘右边缘’、“上边缘”、‘左眉毛’、‘右眉’、‘鼻子’、‘左眼’、‘右眼’和‘嘴巴’;生成一个掩码 ,通过计算随机选择的多个不同的区域并构造凸包 ;基于掩码,将真实图像与噪声增强后的图像进行混合得到,其中 表示随机生成的凸包掩码, 表示原始图像,表示混合后的图像,即局部噪声数据增强的图像。
5.一种基于噪声感知的可泛化深度伪造图像检测系统,执行如权利要求1‑4中任一项所述的基于噪声感知的可泛化深度伪造图像检测方法,其特征在于,包括:数据获取单元,获取待检测的人像视频图像数据,其中该检测图像由不同待检测的数据源通过系统对外提供的检测接口所得;
特征提取单元,将所述的面部图像输入预训练的深度伪造图像检测模型,提取图像的深度伪造证据特征;
深度伪造图像检测模型通过自适应噪声感知注意力模型,挖掘图像中的噪声信息作为鉴伪证据,具体如下:通过噪声增强模块捕获与图像本质噪声相关的信息,利用非局部一致性模块来分析同源区域的相似性以及异源区域的不一致性,使用多尺度融合模块来融合不同尺度的特征信息;深度伪造图像检测模型通过基于局部噪声数据增强的模型泛化机制,使用局部噪声数据增强流来生成更多样的训练数据,使得模型能够挖掘更鲁棒、伪造方法无关、可泛化的图像伪造证据;
结果识别单元,将所述特征作为伪造证据用于判别面部图像是否经过深度伪造,并通过上述检测接口返回检测结果。