1.一种基于GAN的语音对抗样本生成方法,其特征在于:所述方法包括,S1、对原始语音数据样本x进行预处理;
S2、将预处理后的原始语音数据样本x输入生成器G,得到对抗扰动G(x),使用公式(1)adv构建对抗样本,公式(1)为x =x+G(x);
adv adv
S3、将对抗样本x 输入到判别器D中,并且将对抗样本x 经过梅尔倒谱系数MFCC特征提取器后输入到目标网络f中;
S4、计算目标网络的损失lf、判别器的对抗损失lGAN、铰链损失lhinge、均方差损失l2以及判别器的损失lD,由此得到生成器G训练时的损失函数l;
S4中生成器训练时的损失函数l通过公式(4)得到,该公式(4)具体为:adv
其中,α、β和γ是各项损失的权重, 为生成的对抗样本x 经过MFCC提取器输入目标网络后计算输出的预测值与指定值之间的损失,其根据公式(5) 得到,t是目标标签,lf为目标网络的,MFCC是特征提取器, 可促使构建的语音样本能被目标网络错分成目标标签t;
adv
判别器的对抗损失lGAN采用如下公式(6)获取,即lGAN=Εxlog(1‑D(x ),t);
铰链损失lhinge通过公式(7)获得,即lhinge=Εxmax(0,||G(x)||2‑c),其中,c为扰动范围参数;
adv
均方差损失l2通过公式(8)获取,即l2=||x ‑x||2;
adv
判别器的损失lD通过公式(9)获取,即lD=Εxlog(D(x ))+Εxlog(1‑D(x));
S5、将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,并通过公式(10)得到最佳生成器,公式(10)为S6、将原始样本x加载到由S5得到的最佳生成器中,构建得到相应的对抗样本。
2.根据权利要求1所述方法,其特征在于:所述生成器G由8个卷积层、7个反卷积层、一个全连接层构成,其中卷积层和反卷积层之间使用跳跃连接,并使用Tanh激活函数将最后一层的值映射到[‑1,1]的范围内。
3.根据权利要求1所述方法,其特征在于:所述判别器由11个卷积块、一个卷积层、一个全连接层和一个softmax层构成,其中,卷积块包括卷积层、BN层和激活函数Leaky‑ReLU。
4.根据权利要求1所述方法,其特征在于:S5中将S4获得的损失函数l通过梯度反传更新生成器和判别器的参数,具体为,(1) (2) (m)
1)在训练集中随机获取m个原始样本{x ,x ,…,x };
adv adv(1) adv(2)
2)将m个原始样本输入生成器G,构成m个对抗样本x (x+G(x)),即{x ,x ,…,adv(m)x };
3)使用 更新
生成器;
4)使用 更新判别器;
5)重复步骤1)‑4)直至完成迭代次数。
5.根据权利要求1所述方法,其特征在于:S1中对原始语音数据样本x进行预处理,具体为,所述原始语音数据样本为内容在2个词语以内的语音信号集合,采用如下公式(2)将语音数据归一化到[‑1 ,1]内,语音数据采样点个数为16384个,公式(2)为
6.根据权利要求5所述方法,其特征在于:所述方法还包括采用如下公式(3)将[‑1,1]范围内的语音数据恢复到[‑32767,32767]的正常范围内,公式(3)为