利索能及
我要发布
收藏
专利号: 2023115775632
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音转换主动防御方法,其特征在于,包括:基于预构建的GAN网络,设置损失函数和训练参数,并对所述GAN网络中的生成器网络和判别器网络进行训练;

将读取到的干净样本输入至训练好的生成器网络生成对抗扰动,并将所述对抗扰动加至所述干净样本,获取对抗样本;

将所述对抗样本输入至预训练的各语音转换模型进行测试,利用测试好的对抗样本进行语音转换主动防御;

其中,所述判别器网络能够判别所述对抗样本和干净样本的差异;

对所述GAN网络中的生成器网络和判别器网络进行训练包括:将所述干净样本输入至所述生成器网络生成对抗扰动,并将所述对抗扰动加至所述干净样本,获取对抗样本;

将所述对抗样本和干净样本输入至所述判别器网络,计算GAN损失,并利用所述判别器网络辅助所述生成器网络进行训练,使所述对抗样本拟合所述干净样本的数据分布;

分别对所述对抗样本和干净样本进行梅尔频谱提取,获取所述对抗样本和干净样本的梅尔频谱;

将所述干净样本的梅尔频谱作为源语音和目标语音分别输入至预训练的各所述语音转换模型,获取重构语音梅尔频谱集合;

将所述干净样本的梅尔频谱作为源语音,将所述对抗样本的梅尔频谱作为目标语音,分别输入至预训练的各所述语音转换模型,获取被破坏的重构语音梅尔频谱集合;

根据所述重构语音梅尔频谱集合和被破坏的重构语音梅尔频谱集合,计算获取攻击损失;

根据所述对抗样本和干净样本,计算获取质量损失;

根据所述GAN损失中的判别器损失,利用所述判别器网络所属的优化器更新所述判别器网络;

根据所述GAN损失中的生成器损失,以及所述攻击损失和质量损失,利用所述生成器网络所述的优化器更新所述生成器网络。

2.根据权利要求1所述的语音转换主动防御方法,其特征在于,所述生成器网络包括连接的编码器网络和解码器网络,所述编码器网络对输入的干净样本进行下采样获取隐层向量并将其输入至所述解码器网络,由所述解码器网络根据所述隐层向量生成对抗扰动;

其中,所述编码器网络包括连接的三个卷积层和四个下采样模块,所述下采样模块包括连接的四个跳跃连接层、一个GeLU激活函数和一个平均池化层;

所述解码器网络包括连接的三个转置卷积层和四个上采样模块,所述上采样模块包括连接的四个跳跃连接层、一个GeLU激活函数和一个上采样层;

其中,所述跳跃连接层包括连接的三个卷积层和Tanh激活函数,所述编码器网络还连接有用于将其输出限制在‑1至1之间的Tanh激活函数。

3.根据权利要求1所述的语音转换主动防御方法,其特征在于,所述判别器网络包括连接的一个卷积层、六个跳跃连接平均池化层和一个全连接层,所述跳跃连接平均池化层与全连接层之间使用Leaky ReLU激活函数,所述全连接层还连接有Sigmoid激活函数,所述判别器网络在训练时辅助所述生成器网络进行训练,使所述生成器网络生成的对抗样本拟合所述干净样本的数据分布。

4.根据权利要求1所述的语音转换主动防御方法,其特征在于,所述损失函数包括GAN损失函数、用于使所述对抗扰动具有攻击性的攻击损失函数和用于使所述对抗扰动不可感知的质量损失函数,所述GAN损失函数包括用于衡量所述判别器网络对所述对抗样本和干净样本的判别准确性的判别器损失函数和用于使所述判别器网络无法判别所述对抗样本和干净样本的差异的生成器损失函数,所述判别器损失函数的计算公式为:;

其中, 为判别器损失,为干净样本, 为对抗样本, , 为生成器网络, 为判别器网络, 为数据分布, 为数学期望;

所述生成器损失函数的计算公式为:

其中, 为生成器损失;

所述攻击损失函数的计算公式为:

其中, 为攻击损失,为语音转换模型总数, 为第 个语音转换模型, 为梅尔频谱提取操作;

所述质量损失函数的计算公式为:

其中, 为质量损失;

总损失函数的计算公式为:

其中,为总损失,、为平衡对抗扰动的攻击性、不可感知性的超参数。

5.根据权利要求1所述的语音转换主动防御方法,其特征在于,设置训练参数包括:设置梅尔频谱普提取参数,包括:设置音频的采样率为22050Hz,窗函数为汉明窗,窗口长度为1024,跳长为256;

设置网络训练超参数,包括:设置单个训练数据的时长为1s,训练使用的batch size为

64,训练10个epoch,判别器网络和生成器网络的优化器使用Adam优化器,学习率为0.001;

设置损失函数超参数,包括:设置平衡对抗扰动的攻击性、不可感知性的超参数 、为

1、10。

6.根据权利要求1所述的语音转换主动防御方法,其特征在于,各所述语音转换模型的输入包括源语音和目标语音,各所述语音转换模型将输入的源语音和目标语音分别解耦成内容特征和声纹特征,并将所述源语音的内容特征和所述目标语音的声纹特征结合,获取转换语音。

7.一种语音转换主动防御装置,其特征在于,包括:训练模块:用于基于预构建的GAN网络,设置损失函数和训练参数,并对所述GAN网络中的生成器网络和判别器网络进行训练;

对抗样本获取模块:用于将读取到的干净样本输入至训练好的生成器网络生成对抗扰动,并将所述对抗扰动加至所述干净样本,获取对抗样本;

测试模块:用于将所述对抗样本输入至预训练的各语音转换模型进行测试,利用测试好的对抗样本进行语音转换主动防御;

其中,所述判别器网络能够判别所述对抗样本和干净样本的差异;

对所述GAN网络中的生成器网络和判别器网络进行训练包括:将所述干净样本输入至所述生成器网络生成对抗扰动,并将所述对抗扰动加至所述干净样本,获取对抗样本;

将所述对抗样本和干净样本输入至所述判别器网络,计算GAN损失,并利用所述判别器网络辅助所述生成器网络进行训练,使所述对抗样本拟合所述干净样本的数据分布;

分别对所述对抗样本和干净样本进行梅尔频谱提取,获取所述对抗样本和干净样本的梅尔频谱;

将所述干净样本的梅尔频谱作为源语音和目标语音分别输入至预训练的各所述语音转换模型,获取重构语音梅尔频谱集合;

将所述干净样本的梅尔频谱作为源语音,将所述对抗样本的梅尔频谱作为目标语音,分别输入至预训练的各所述语音转换模型,获取被破坏的重构语音梅尔频谱集合;

根据所述重构语音梅尔频谱集合和被破坏的重构语音梅尔频谱集合,计算获取攻击损失;

根据所述对抗样本和干净样本,计算获取质量损失;

根据所述GAN损失中的判别器损失,利用所述判别器网络所属的优化器更新所述判别器网络;

根据所述GAN损失中的生成器损失,以及所述攻击损失和质量损失,利用所述生成器网络所述的优化器更新所述生成器网络。

8.一种语音转换主动防御系统,其特征在于,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据权利要求1 6任一项所述方法的步~骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1 6任一项所述方法的步骤。

~