利索能及
我要发布
收藏
专利号: 201910969019X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于人工智能的语音增强方法,应用于服务器,其特征在于,所述方法包括:

获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;

构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;

第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;

第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。

2.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。

3.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。

4.如权利要求1所述的基于人工智能的语音增强方法,其特征在于,所述生成器的损失函数为:

其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。

5.如权利要求1至4任意一项所述的基于人工智能的语音增强方法,其特征在于,所述鉴别器的损失函数为:

其中,D表示鉴别器,X表示去噪语音,Xc表示与带噪语音输入生成器后输出的语音,X,Xc~Pdata(X,Xc)表示关于训练样本特征X和Xc的分布,D(X,Xc)表示鉴别器对X和Xc的真实度评分,Z~Pz(z)样本Z的分布,Xc~Pdata(Xc)表示样本Xc的分布,E表示求样本X、Xc或样本Z、Xc输出的均值,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示鉴别器对G(Z,Xc)和Xc的真实度评分。

6.一种服务器,该服务器包括存储器及处理器,其特征在于,所述存储器上存储基于人工智能的语音增强程序,所述基于人工智能的语音增强程序被所述处理器执行,实现如下步骤:获取步骤:获取预设数量的带噪语音及与各带噪语音对应的去噪语音,作为训练样本,将所述训练样本分为第一数据集、第二数据集及第三数据集;

构建步骤:构建生成式对抗网络,所述生成式对抗网络包括至少一个生成器和一个鉴别器;

第一训练步骤:将所述第一数据集输入所述鉴别器,以最小化鉴别器的损失函数值为目标调整鉴别器的参数,当鉴别器的损失函数值小于第一预设阈值时更新所述鉴别器的参数,得到第一鉴别器,再将第二数据集的带噪语音输入所述生成器,将输出的语音和该带噪语音输入所述第一鉴别器,利用反向传播算法更新第一鉴别器的参数;

第二训练步骤:将所述第三数据集的带噪语音输入所述生成器,将输出的语音及该带噪语音输入更新参数后的第一鉴别器,根据所述更新参数后的第一鉴别器的输出结果得到生成器的损失函数,以最小化生成器的损失函数值为目标调整生成器的参数,当生成器的损失函数值小于第二预设阈值时,更新所述生成器的参数,将更新参数后的生成器作为语音增强模型;及反馈步骤:接收用户发送的待增强的语音数据,将待增强语音数据输入所述语音增强模型,生成增强后的语音数据并反馈至所述用户。

7.如权利要求6所述的服务器,其特征在于,所述生成器由一个两层的卷积网络及一个两层的全连接神经网络组成,所述卷积网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。

8.如权利要求6所述的服务器,其特征在于,所述鉴别器由一个八层的卷积网络、一个一层的长短期记忆循环网络及一个二层的全连接神经网络组成,所述卷积网络、长短期记忆循环网络及第一层全连接神经网络的激活函数为Relu函数,第二层全连接神经网络的激活函数为sigmoid函数。

9.如权利要求6所述的服务器,其特征在于,所述生成器的损失函数为:

其中,G表示生成器,D表示鉴别器,Z表示带噪语音,Z~Pz(Z)表示样本Z的分布,Xc表示与带噪语音输入生成器后输出的语音,E表示求样本Xc、Z输出的均值,Xc~Pdata(Xc)表示样本Xc的分布,G(Z,Xc)表示生成器将样本Z和样本Xc转换为合成数据,D(G(Z,Xc),Xc)表示所述鉴别器对G(Z,Xc)和Xc的真实度的评分。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于人工智能的语音增强程序,所述基于人工智能的语音增强程序被处理器执行时,可实现如权利要求1至5中任一项所述基于人工智能的语音增强方法的步骤。