利索能及
我要发布
收藏
专利号: 2020113294916
申请人: 深圳信息职业技术学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种轻量级时域卷积网络语音增强方法,其特征在于:首先,将带噪语音信号进行分帧加窗处理,然后进行短时傅里叶变换,得到带噪语音信号的幅度谱和相位谱,随后将带噪语音信号的幅度谱送入时域卷积网络模型,进行先验信噪比的估计,紧接着利用估计的先验信噪比进行增益函数的估计,最后在幅度域进行滤波降噪,并利用带噪语音信号的相位谱作为增强后的相位,进行语音信号的重构;

所述时域卷积网络模型由两层全连接层和N个残差模块构成,输入的特征为带噪语音的幅度谱特征;

对输入的特征进行归一化处理,然后重塑成[句子数,句子长度,1,257]的张量形式进行模型的训练或推断,其中,张量第四维的257对应着所提取的每一帧语音数据所对应的幅度谱特征,随后,经过一层256‑维的全连接层得到了变换后的输入特征,为了更好地对输入特征进行表示,这里采用非线性整流单元进行非线性激活,接下来,考虑到语音信号之间的时序依赖关系,通过堆叠带有空洞卷积的残差模块来捕获不同帧之间的信息,利用过去帧中的上下文信息来实现对当前帧先验信噪比的估计,在残差模块的设计方面,每个残差模块由三层卷积层构成,为了降低其参数量和运算量,采用了瓶颈结构的设计方式,三层卷积层的输出通道维度分别为128,128,256维,其对应的张量尺寸分别为[句子数,句子长度,1,

128]、[句子数,句子长度,1,128]和[句子数,句子长度,1,256],为了进一步降低模型的参数量和运算复杂度,对第一层和第三层卷积层自左至右进行分组,这里分组数量设置为8,通过分组操作之后,每个组的通道维数为16,然后利用1×1的卷积来串联每组中的各通道信息,为了保证组与组之间的信息交互,对第一层分组卷积的输出进行通道混合,每个组中将同一索引所对应的通道自左至右排列在一起,然后再在每个通道上进行卷积核为1×3的空洞卷积操作,空洞率以1,2,4,8,16的循环方式对不同的残差模块进行配置,而最后一层卷积层则执行与第一层卷积相同的分组卷积操作,然后通过跳连的方式将残差模块的输入和输出特征相加,整个时域卷积网络模型的最后采用了一层257‑维的全连接层实现对先验信噪比的估计,当然为了保证其输出的范围在[0,1]之间,采用了sigmoid函数作为全连接层的激活函数。

2.根据权利要求1所述的轻量级时域卷积网络语音增强方法,其特征在于:语音信号的重构包括反傅里叶变换和重叠相加。

3.根据权利要求1所述的轻量级时域卷积网络语音增强方法,其特征在于:所述时域卷积网络模型的构建过程如下:

1),根据先验信噪比的定义,其取值范围为大于零的任意数,如式子(1)所示:

其中,|Xclean(n,k)|和|Nnoise(n,k)|分别代表纯净语音和噪声信号的幅度谱,n和k分别为帧索引和频率索引,为了降低时域卷积网络模型的学习难度,对其进行值域范围进行压缩,通过对先验信噪比的统计研究发现,其对数变换形式,如式(2)所示,是服从高斯分布的,因此利用一种累积分布函数,对其进行压缩,如式子(3)所示:ξdB(n,k)=10·log10(ξ(n,k))  (2)

其中,ξdB(n,k)为对数压缩后的先验信噪比,而 则是通过累积分布函数压缩后的先验信噪比,其取值范围为[0,1],erf(·)代表的是累积分布函数,μk和σk分别为在不同频点上,通过统计分析得到的ξdB(n,k)所对应的均值和方差;

2),考虑到语音信号之间的时序依赖性,利用空洞卷积设计了一种轻量级的时域卷积网络模型,来学习带噪语音幅度谱|Xnoisy(n,k)|和先验信噪比 之间的映射关系。

4.根据权利要求3所述的轻量级时域卷积网络语音增强方法,其特征在于:所述时域卷积网络模型训练时的损失函数用交叉熵来计算,计算式如式子(4)所示,其中yi和 分别为理想的先验信噪比和神经网络输出层预测的先验信噪比结果:

5.根据权利要求4所述的轻量级时域卷积网络语音增强方法,其特征在于:对进行降噪滤波的增益函数进行估计,采用的是以贝叶斯理论和最小均方误差准则推导出的增益函数表达形式,如下式子(5)所示:其中,G(n,k)为估计的增益函数,ξ(n,k)为先验信噪比的估计值,也是积分的下限,但是由于时间卷积网络输出的先验信噪比是压缩变换后的值,因此,还需要对其进行反变换,才能得到式子(5)中所需要的先验信噪比,而反变换的过程如式子(6)和(7)所示:将反变换后的先验信噪比代入到式子(5)中的增益函数表达式中,便可以得到每一帧带噪语音幅度谱在每个频点上的增益值,与每个频点进行点乘就得到了增强后的语音幅度值,最后利用带噪语音的相位谱便可以合成最终的增强语音信号。

6.一种轻量级时域卷积网络语音增强系统,其特征在于:包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。