1.一种基于生成对抗网络的端到端语音增强方法,其特征在于,将带噪语音信号直接输入预先训练好的深度神经网络进行信号处理并输出增强语音信号;
其中,深度神经网络通过以下步骤训练得到:
步骤S1:初步训练生成对抗网络,其中,所述生成对抗网络包括两个深度神经网络:生成器G和判别器D,所述生成器G用于产生生成信号以逼近真实语音信号;所述判别器D用于判别所述生成器G产生的生成信号是否为真实语音信号并以此输出‘1’或‘0’;
所述步骤S1进一步包括:
步骤S11:获取第一训练数据,其中,第一训练数据包括模拟带噪语音及其相对应的纯净语音,均从标准数据集中直接得到,以纯净语音作为标签数据;
步骤S12:将第一训练数据输入到生成对抗网络,并以对抗学习的方式训练生成对抗网络;
步骤S2:通过传统基于统计学语音增强算法对模拟带噪语音进行知识蒸馏后,再次训练生成对抗网络,所述步骤S2进一步包括:步骤S21:获取第二训练数据,其中,第二训练数据包括模拟带噪语音及该模拟带噪语音经过传统基于统计学语音增强算法处理后产生第一增强语音,以第一增强语音作为标签数据;
步骤S22:将第二训练数据输入到生成对抗网络,并以对抗学习的方式再次训练生成对抗网络;
步骤S3:利用真实带噪语音对经上述步骤训练得到的生成器G进行微调,所述步骤S3进一步包括:步骤S31:获取第三训练数据,第三训练数据包括真实带噪语音及该真实带噪语音经过传统基于统计学语音增强算法处理后产生第二增强语音,以第二增强语音作为标签数据;
步骤S32:以真实带噪语音作为生成器G的输入数据,第二增强语音作为生成器G的目标输出,通过误差反向传播算法对生成器G进行训练;
步骤S4:将经上述步骤训练的生成器G输出作为最终的深度神经网络以用于语音增强处理。
2.根据权利要求1所述的基于生成对抗网络的端到端语音增强方法,其特征在于,所述以对抗学习的方式训练生成对抗网络进一步包括:步骤S101:训练判别器D,将标签数据输给判别器D并以‘1’作为判别器D的目标输出,通过误差反向传播算法对判别器D进行训练使其学习纯净语音的数据分布;
步骤S102:通过训练数据同时训练生成器G和判别器D,其中,对生成器G的训练中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;
对判别器D的训练中,判别器D的输入数据为生成器G产生的生成信号,判别器D的的目标输出为‘0’;
通过反向误差传播对生成器G和判别器D进行同时训练,以使所述生成器G产生的生成信号逼近纯净语音,同时使所述判别器D的判别能力进一步提高;
步骤S103:冻结经上述步骤训练的判别器D参数,对生成器G进行再次训练;其中,生成器G的输入数据为模拟带噪语音,生成器G的目标输出为使所述判别器D输出‘1’;所述生成器G不断产生生成信号并通过判别器D对该生成信号进行判别,直至所述判别器D输出‘1’。