利索能及
我要发布
收藏
专利号: 2021105400975
申请人: 广州大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-26
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音增强方法,其特征在于,包括:

获取训练数据集;所述训练数据集包括纯净语音数据以及噪声语音数据;

将所述纯净语音数据输入判别网络进行训练,使得所述判别网络的输出结果表征真实结果,得到判别网络模型;

根据所述噪声语音数据对生成网络进行训练,得到生成网络模型;所述生成网络模型的输出结果输入至所述判别网络模型使得所述判别网络模型的输出结果表征真实结果,所述判别网络以及所述生成网络中的至少一个基于时域卷积网络进行训练;

将待处理语音输入所述生成网络模型,得到增强语音;

所述根据所述噪声语音数据对生成网络进行训练,得到生成网络模型,包括:对噪声语音数据进行数据处理,得到噪声语音数据的幅度谱和相位谱;

将所述幅度谱输入所述生成网络提取语音特征;

根据所述相位谱和所述语音特征进行语音重构;

将语音重构结果输入至所述判别网络模型,并根据所述判别网络模型的输出结果对所述生成网络的网络参数进行调整,根据调整后的生成网络生成所述生成网络模型;

所述幅度谱包括帧序列,所述将所述幅度谱输入所述生成网络提取语音特征,包括:通过第一二维因果卷积层集合对所述帧序列进行因果卷积处理,得到不同尺寸的第一因果卷积处理结果;所述第一二维因果卷积层集合包括若干个第一二维因果卷积层,每一所述第一二维因果卷积层输入的帧数和输出的帧数相同;

对所述第一因果卷积处理结果进行第一处理,得到一维信号;所述第一处理包括批归一化和非线性处理;

通过时域卷积模块对所述一维信号进行处理,得到所述语音特征。

2.根据权利要求1所述语音增强方法,其特征在于:所述时域卷积模块包括膨胀块,所述通过时域卷积模块对所述一维信号进行处理,根据处理结果得到所述语音特征,包括:通过膨胀块对所述一维信号进行膨胀卷积处理,得到所述语音特征;所述膨胀卷积处理基于膨胀因子定义,所述膨胀因子用于调整所述时域卷积网络的接收范围。

3.根据权利要求2所述语音增强方法,其特征在于:所述膨胀块包括第一残差块和第二残差块,所述通过膨胀块对所述一维信号进行膨胀卷积处理,包括:通过第一残差块对所述一维信号进行第一残差处理,并通过第二残差块对第一残差处理结果进行第二残差处理,其中所述第一残差块和所述第二残差块的所述膨胀因子按照预设规则递增;所述通过第一残差块对所述一维信号进行第一残差处理,包括:通过第一残差块对所述一维信号进行第一卷积处理;

对第一卷积处理结果进行第一批量归一化;

对第一批量归一化结果进行非线性处理;

对非线性处理结果进行第二批量归一化;

对第二批量归一化结果进行第二卷积处理。

4.根据权利要求1所述语音增强方法,其特征在于:根据所述相位谱和所述语音特征进行语音重构,包括:根据所述相位谱与所述语音特征,通过第二二维因果卷积层集合进行因果转置卷积处理实现语音重构;所述第二二维因果卷积层集合包括若干个第二二维因果卷积层,每一所述第二二维因果卷积层与所述第一二维因果卷积层集合中对称的第一二维因果卷积层的输出连接。

5.根据权利要求1‑4任一项所述语音增强方法,其特征在于:所述根据所述噪声语音数据对生成网络进行训练,包括:根据所述噪声语音数据对生成网络进行训练,并在训练过程中根据预设丢包率对生成网络进行网络正则化。

6.一种语音增强装置,其特征在于,包括:

获取模块,用于获取训练数据集;所述训练数据集包括纯净语音数据以及噪声语音数据;

第一训练模块,用于将所述纯净语音数据输入判别网络进行训练,使得所述判别网络的输出结果表征真实结果,得到判别网络模型;

第二训练模块,用于根据所述噪声语音数据对生成网络进行训练,得到生成网络模型;

所述生成网络模型的输出结果输入至所述判别网络模型使得所述判别网络模型的输出结果表征真实结果,所述判别网络以及所述生成网络中的至少一个基于时域卷积网络进行训练;

增强模块,用于将待处理语音输入所述生成网络模型,得到增强语音;

所述根据所述噪声语音数据对生成网络进行训练,得到生成网络模型,包括:对噪声语音数据进行数据处理,得到噪声语音数据的幅度谱和相位谱;

将所述幅度谱输入所述生成网络提取语音特征;

根据所述相位谱和所述语音特征进行语音重构;

将语音重构结果输入至所述判别网络模型,并根据所述判别网络模型的输出结果对所述生成网络的网络参数进行调整,根据调整后的生成网络生成所述生成网络模型;

所述幅度谱包括帧序列,所述将所述幅度谱输入所述生成网络提取语音特征,包括:通过第一二维因果卷积层集合对所述帧序列进行因果卷积处理,得到不同尺寸的第一因果卷积处理结果;所述第一二维因果卷积层集合包括若干个第一二维因果卷积层,每一所述第一二维因果卷积层输入的帧数和输出的帧数相同;

对所述第一因果卷积处理结果进行第一处理,得到一维信号;所述第一处理包括批归一化和非线性处理;

通过时域卷积模块对所述一维信号进行处理,得到所述语音特征。

7.一种语音增强装置,其特征在于,包括处理器以及存储器;

所述存储器存储有程序;

所述处理器执行所述程序以实现如权利要求1‑5中任一项所述方法。

8.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行时实现如权利要求1‑5中任一项所述方法。