1.一种对抗样本防御模型训练方法,其特征在于,所述训练方法包括:获取训练集;所述训练集包括对抗样本和真实样本;所述对抗样本通过向所述真实样本添加对抗扰动而得到;
构建初始防御模型;所述初始防御模型包括生成器、判别器和分类器;所述生成器分别与所述判别器和所述分类器相连接;所述生成器用于以所述对抗样本作为输入,生成逆扰动,并根据所述逆扰动得到重构样本;所述判别器用于以所述真实样本和所述重构样本作为输入,对所述重构样本进行判别;所述分类器用于以所述重构样本作为输入,对所述重构样本进行分类;
利用所述训练集对所述初始防御模型进行训练,得到防御模型;
以生成器架构作为逆扰动构造模型,用于生成逆扰动,具体表示如下:IP IPCM adv
r =G (x );
IP IPCM adv
其中,r 为逆扰动;G 为生成器;x 为对抗样本;
重构样本的计算公式如下:
RE adv IP
x =x ‑r ;
RE
其中,x 为重构样本。
2.根据权利要求1所述的训练方法,其特征在于,所述利用所述训练集对所述初始防御模型进行训练,得到防御模型具体包括:分别构建生成器损失函数和判别器损失函数;
以所述训练集作为输入,根据所述生成器损失函数和所述判别器损失函数,采用反向传播的方式对所述生成器和所述判别器的参数进行迭代更新,直至达到预设终止条件,选取最后一次迭代中所得到的更新后的生成器作为防御模型。
3.根据权利要求2所述的训练方法,其特征在于,所述构建生成器损失函数具体包括:分别构建均方误差损失函数、对抗损失函数和重构损失函数;
以所述均方误差损失函数、所述对抗损失函数和所述重构损失函数的加权和作为生成器损失函数。
4.根据权利要求2所述的训练方法,其特征在于,所述根据所述生成器损失函数和所述判别器损失函数,采用反向传播的方式对所述生成器和所述判别器的参数进行迭代更新具体包括:在一次迭代更新中,固定所述生成器的参数,根据所述判别器损失函数对所述判别器的参数进行更新,得到更新后的判别器;
固定所述更新后的判别器的参数,根据所述生成器损失函数对所述生成器的参数进行更新,得到更新后的生成器。
5.一种对抗样本防御模型训练系统,其特征在于,所述训练系统包括:第一获取模块,用于获取训练集;所述训练集包括对抗样本和真实样本;所述对抗样本通过向所述真实样本添加对抗扰动而得到;
构建模块,用于构建初始防御模型;所述初始防御模型包括生成器、判别器和分类器;
所述生成器分别与所述判别器和所述分类器相连接;所述生成器用于以所述对抗样本作为输入,生成逆扰动,并根据所述逆扰动得到重构样本;所述判别器用于以所述真实样本和所述重构样本作为输入,对所述重构样本进行判别;所述分类器用于以所述重构样本作为输入,对所述重构样本进行分类;
训练模块,用于利用所述训练集对所述初始防御模型进行训练,得到防御模型;
以生成器架构作为逆扰动构造模型,用于生成逆扰动,具体表示如下:IP IPCM adv
r =G (x );
IP IPCM adv
其中,r 为逆扰动;G 为生成器;x 为对抗样本;
重构样本的计算公式如下:
RE adv IP
x =x ‑r ;
RE
其中,x 为重构样本。
6.一种对抗样本防御方法,其特征在于,所述防御方法包括:获取待分类对抗样本;
以所述待分类对抗样本作为输入,利用防御模型得到重构样本;所述防御模型采用权利要求1‑4任一项所述的训练方法训练得到;
利用分类模型对所述重构样本进行分类,得到分类结果;所述分类模型采用深度神经网络模型。
7.根据权利要求6所述的防御方法,其特征在于,所述以所述待分类对抗样本作为输入,利用防御模型得到重构样本具体包括:以所述待分类对抗样本作为输入,利用防御模型生成逆扰动;
对所述待分类对抗样本和所述逆扰动进行像素级相减,得到重构样本。
8.一种对抗样本防御系统,其特征在于,所述防御系统包括:第二获取模块,用于获取待分类对抗样本;
重构模块,用于以所述待分类对抗样本作为输入,利用防御模型得到重构样本;所述防御模型采用权利要求1‑4任一项所述的训练方法训练得到;
分类模块,用于利用分类模型对所述重构样本进行分类,得到分类结果;所述分类模型采用深度神经网络模型。
9.一种对抗样本防御设备,其特征在于,包括:处理器;以及
存储器,其中存储计算机可读程序指令,其中,在所述计算机可读程序指令被所述处理器运行时执行如权利要求1‑4任一项所述的训练方法,或者执行如权利要求6‑7任一项所述的防御方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1‑4任一项所述训练方法的步骤;或实现权利要求6‑7任一项所述防御方法的步骤。