利索能及
我要发布
收藏
专利号: 2022103876233
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于时间建模生成对抗网络的语音增强系统,其特征在于,包括:数据获取单元,用于获取带噪语音信号,并对所述带噪语音信号进行降采样;

信号增强单元,用于将所述带噪语音信号输入基于时间建模的生成对抗网络,压缩并提取语音信号的全局时域特征,将所述时域特征与随机噪声链接为一个特征向量,对所述特征向量进行解码,得到增强的语音信号;

所述生成对抗网络包括生成器,所述生成器包括编码器和解码器;

所述编码器包括第一卷积层和第一时间建模模块,所述第一卷积层用于提取语音信号局部特征,所述第一时间建模模块用于根据所述局部特征提取语音信号的时域特征;

所述解码器包括反卷积层和第二时间建模模块,反卷积层用于根据编码器提取的语音特征恢复语音信号,第二时间建模模块用于在恢复语音信号过程中进行时间建模。

2.根据权利要求1所述的系统,其特征在于,所述第一时间建模模块包括上下堆叠的GRU层和自注意力机制层;所述GRU层用于根据第一卷积层输出的局部特征提取特征的时间相关性特征;所述自注意力机制层用于根据所述时间相关性提取特征的全局时域特征。

3.根据权利要求2所述的系统,其特征在于,所述自注意力机制层包括第二卷积层、最大池化层和第一softmax层;

所述第二卷积层用于对所述时间相关性特征进行卷积操作,得到查询矩阵;

所述最大池化层用于对卷积操作后的时间相关性特征降低特征数量,得到键矩阵和值矩阵;

所述自注意力机制层用于利用查询矩阵、键矩阵和值矩阵进行相似性计算和softmax操作。

4.根据权利要求1所述的系统,其特征在于,所述第一卷积层为一维的,所述第一时间建模模块嵌入在相邻两个第一卷积层中间,且与所述第一卷积层相互耦合;

所述反卷积层为一维的,且层数与所述第一卷积层相同,所述第二时间建模模块嵌入在相邻两个反卷积层中间;

所述第一卷积层与所述反卷积层之间采用残差链接连接。

5.根据权利要求1所述的系统,其特征在于,所述生成对抗网络还包括鉴别器,所述鉴别器包括:第二卷积层、第三时间建模模块、全连接层和第二softmax层,所述第二卷积层用于提取局部特征,第三时间建模模块用于提取特征的时间相关性和全局相关性,全连接层用于利用线性变换降低特征的数量,第二softmax层将特征转换为判断真假的概率,1为真,

0为假。

6.根据权利要求5所述的系统,其特征在于,还包括:训练集获取单元,用于获取带噪语音信号的训练集,并进行降采样;

网络构建获取单元,用于构建基于时间建模的生成对抗网络;

网络训练单元,用于利用训练集对构建的生成对抗网络进行训练,得到增强的语音信号;

语音鉴定单元,用于将纯净语音信号和增强的语音信号分别联合带噪语音,通过鉴别器对联合后的语音信号判定真假;

损失计算单元,用于通过反向传播对生成器和鉴别器同时进行训练,计算损失函数,通过损失函数更新所述生成对抗网络的参数。