1.基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于,包括如下步骤:步骤S1:提供原始图像,将其中原始图像作为DNN模型的训练数据;
步骤S2:提供白盒目标模型,使用包含原始图像的数据集作为训练数据集,利用类激活映射技术生成关于原始图像的显著区域二进制掩码,利用基于信念的攻击方法融合I‑FGSM对抗样本生成方法生成全局对抗扰动;
步骤S3:将生成的全局对抗扰动和显著区域二进制掩码进行哈达玛积运算,生成显著区域对抗扰动;
步骤S4:将显著区域对抗扰动添加到输入图像,
步骤S5:重复步骤S2‑S4迭代生成图像对抗样本,并裁剪溢出的像素值,直到达到预设终止条件,最后一次迭代生成的对抗样本作为输出的对抗样本;
在所述步骤2中,所述基于信念的攻击方法思想包括:利用观测梯度计算其指数移动平均,利用如下公式计算观测梯度:其中,J为分类器的损失函数,||·||1为L1范数;
基于观测梯度计算观测梯度和观测梯度平方的EMA,利用如下公式计算:mt=β1mt‑1+(1‑β1)gt
2
st=β2st‑1+(1‑β2)(gt‑mt)
其中,mt为第t次迭代观测梯度gt的EMA,st为观测梯度平方的EMA,β1=0.99和β2=0.999为平滑参数;
基于观测梯度和观测梯度平方的EMA,利用如下公式计算对抗扰动:其中,δ=1e‑8;
将对抗扰动进行包括偏差矫正和正则化以及缩放操作获得全局对抗扰动,通过如下公式进行计算:其中,a为初始步长,ε为扰动量,N为输入图像像素数,T为总迭代次数,λt为偏差矫正,为第t次迭代的全局对抗扰动,η为扰动控制因子;扰动量ε=16,表示生成的对抗扰动范围为[‑16,16]。
2.根据权利要求1所述的基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于:在所述步骤1中,所述原始图像来自ImageNetValidation数据集,原始图像包括
1000张不同类别的图片。
3.根据权利要求1所述的基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于:在所述步骤2中,白盒模型采用Inception‑v3、Inception‑v4、Inception‑Resnet‑v2、Resnet‑v2‑101中的一种。
4.根据权利要求1所述的基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于:在所述步骤2中,所述类激活映射技术基于Grad‑CAM方法,通过计算白盒目标模型关于输入图像的神经元重要性权重并将其与激活特征图加权融合来获得类激活映射图,接着生成相应的显著区域二进制掩码;
获得显著区域二进制掩码的过程具体表示为:
c
其中, 为第k张特征图关于类别c的神经元重要权重,y为类c在softmax层之前的分数对应的梯度, 表示第k张特征图在位置(i,j)上的像素值,Z为输入图像的像素数量,H(·)为显著区域选择函数,sf(r,x,y)为标签为y的输入图像x在分类器f上选择比例为r的像素区域作为显著二进制掩码;其中,比例r的范围为[0.1,1],表示比例为r的最显著的区域被选取。
5.根据权利要求1所述的基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于:在所述步骤3中,显著区域对抗扰动计算公式如下:其中, 为哈达玛积操作,即执行矩阵按位乘操作。
6.根据权利要求5所述的基于信念攻击和显著区域扰动限制的对抗样本生成方法,其特征在于:在所述步骤5中,添加扰动到输入图像操作并进行溢出像素值裁剪的计算公式如下:其中,clip(·)将扰动量限制在扰动ε范围内;
预设终止条件包括:达到预设的迭代次数T=10。