利索能及
我要发布
收藏
专利号: 2019109141760
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种多模块抑制不同种类噪声的双噪声语音增强方法,其特征在于,包括以下步骤:S1:对多种类型的噪声进行分阶段建模,对于输入的带噪语音,在每个阶段通过噪声抑制模块提取并过滤一种或多种噪声特征;其中,每个噪声抑制模块的损失函数均不相同;

S2:过程中被抑制部分噪声的幅度谱和原始带噪语音幅度谱拼接并输入最终的神经网络;

S3:使用神经网络学习带噪幅度谱到纯净幅度谱的映射,对特征进行提炼,得到纯净的幅度谱;

S4:中间噪声抑制模块损失函数的拟合目标为带噪语音,最终噪声抑制模块损失函数的拟合目标为纯净语音。

2.根据权利要求1所述的双噪声语音增强方法,其特征在于:所述带噪语音由以下公式表示:式中X表示带噪语音,S表示纯净语音,Ni表示一种加性噪声,共有k种噪声。

3.根据权利要求1所述的双噪声语音增强方法,其特征在于:所述噪声抑制模块包含2层全连接层和2层LSTM,其执行基本的抑制带噪语音中某一种或多种噪声的任务,其功能由以下公式表示:X′=f(X)

上式表示增强语音X′,其噪声数量少于降噪以前,f表示噪声抑制模块(Noise Reduction Module,NRM)网络。

4.根据权利要求1所述的双噪声语音增强方法,其特征在于,步骤S1中,包含两个阶段,所述第一阶段包含两个噪声抑制模块,其中,每个噪声抑制模块的输入都为含两种噪声的带噪语音,输出幅度谱的带噪语音中噪声种类少于输入。

5.根据权利要求4所述的双噪声语音增强方法,其特征在于:第一阶段得到2个含不同类型噪声的语音幅度谱,每个幅度谱含有不同的语音特征信息;两个噪声抑制模块及其损失函数分别由以下公式表示:X21=f11(X1)

X22=f12(X1)

式中,X1=S+N1+N2、X21=S+N1、X22=S+N2,X1表示含两种噪声的混合带噪语音,X21、X22表示含一种噪声的带噪语音,X21、X22含有噪声种类不同;li表示噪声抑制模块的损失函数,i=

1,2。

6.根据权利要求5所述的双噪声语音增强方法,其特征在于:所述第二阶段只含一个噪声抑制模块,不限定过滤某种噪声,输入为第一阶段产生的含丰富语音特征信息的多个幅度谱,这些幅度谱被拼接送入一个噪声抑制模块,噪声抑制模块的输出为最终增强语音,表示为:X2=[X1;X21;X22]

X3=f2(X2)

式中表示X2由X1、X21、X22拼接形成;

该噪声抑制模块的损失函数表示为:

7.根据权利要求6所述的双噪声语音增强方法,其特征在于,还包括以下步骤:对3个模块进行联合训练,最终的损失函数表示为:loss=α1*l1+α2*l2+···+αm*lm其中li表示每个模块的损失函数,αi表示每个模块的权重,共有m个模块。