买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种非平行语料训练下基于VAE的语音转换方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种非平行语料训练下基于VAE的语音转换方法

￥10500

专利号： 201810393556X

申请人：南京邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-04-09

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种非平行语料训练下基于VAE的语音转换方法，其特征在于，包括训练步骤和语音转换步骤：训练步骤：

1)利用AHOcoder声音编解码器分别提取参与训练的说话人语音的梅尔倒谱特征参数X；

2)将提取的每一帧梅尔倒谱特征参数X进行差分处理并与原特征参数X进行拼接，在时域上将拼接得到的特征参数Xt与前后各一帧的特征参数再进行拼接形成联合特征参数xn；

3)利用联合特征参数xn和说话人的分类标签特征yn对DNN网络进行训练，调整DNN网络的权值以降低分类误差直至网络收敛，得到基于说话人识别任务的DNN网络，提取出每一帧的瓶颈特征bn；

4)利用联合特征参数xn和对应各帧的瓶颈特征bn对VAE模型进行训练，直至模型训练收敛，提取VAE模型隐含空间z各帧的采样特征zn；

5)将采样特征zn和对应各帧的说话人的分类标签特征yn进行拼接得到瓶颈特征映射网络的训练数据，并以各帧的瓶颈特征bn作为监督信息指导瓶颈特征映射网络的训练，通过随机梯度下降算法最小化瓶颈特征映射网络的输出误差，得到瓶颈特征映射网络；

语音转换步骤：

6)将待转换的语音的联合特征参数Xp通过VAE模型的encoder模块，得到隐含空间z各帧的采样特征zn；

7)将采样特征zn和目标说话人的分类标签特征yn进行逐帧拼接输入瓶颈特征映射网络，得到目标说话人的瓶颈特征

8)将瓶颈特征和采样特征zn逐帧拼接通过VAE模型的decoder模块重构出转换后的语音的联合特征参数Xp′；

9)利用AHOcoder声音编解码器重建语音信号。

2.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤1)中提取参与训练的说话人语音的梅尔倒谱特征是利用AHOcoder声音编解码器分别提取参与训练的说话人语音的梅尔倒谱特征，并将梅尔倒谱特征读入Matlab平台。

3.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤2)中得到联合特征参数具体为：将提取的每一帧特征参数X进行一阶差分和二阶差分，并与原特征参数X进行拼接得到特征参数Xt＝(X，ΔX，Δ2X)，在时域上将拼接得到的特征参数Xt与前后各一帧的特征参数再进行拼接形成联合特征参数xn＝(Xt-1，Xt，Xt+1)。

4.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤3)中提取瓶颈特征bn包括如下步骤：

31)在MATLAB平台得到联合特征参数xn每一帧对应的说话人的分类标签特征yn；

32)利用逐层贪婪预训练方法对DNN网络进行无监督的预训练，隐层的激活函数采用ReLU函数；

33)将DNN网络输出层设置为softmax分类输出，将说话人的分类标签特征yn作为DNN网络进行有监督训练的监督信息，利用随机梯度下降算法调整网络的权值，最小化DNN网络分类输出与说话人的分类标签特征yn之间的误差直至收敛，得到基于说话人识别任务的DNN网络；

34)通过前馈算法将联合特征参数xn逐帧输入DNN网络，所述DNN网络为全连接型的神经网络，采用9层网络的DNN模型，输入层节点数为171，对应xn每帧的171维特征，中间7层隐层，每层的节点数分别为1200,1200,1200,57,1200,1200,1200，其中节点数较少的隐层为瓶颈层，提取每一帧对应的瓶颈层的激活值，即每一帧的梅尔倒谱特征参数所对应的瓶颈特征bn。

5.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤4)中VAE模型训练的包括如下步骤：

41)将联合特征参数xn作为VAE模型encoder模块的训练数据、瓶颈特征bn作为decoder模块解码重构时的训练数据对VAE模型进行训练，在VAE模型的decoder模块中将瓶颈特征bn作为语音频谱重构过程的控制信息，即将瓶颈特征bn与采样特征zn逐帧拼接通过VAE模型的decoder模块的训练，重构语音频谱特征；

42)利用ADAM优化器优化VAE模型参数估计过程中的KL散度和均方误差以调整VAE模型网络权值，得到VAE语音频谱转换模型；

43)将联合特征参数xn逐帧输入VAE语音频谱转换模型，并通过采样过程得到隐含采样特征zn。

6.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤5)中得到瓶颈特征映射网络包括如下步骤：

51)将VAE语音频谱转换模型的采样特征zn与对应各帧的说话人的分类标签特征yn进行拼接作为瓶颈特征映射网络的训练数据，瓶颈特征映射网络采用一个输入层、一个隐层和一个输出层的结构，隐层激活函数为sigmoid函数，输出层为线性输出；

52)依据均方误差最小化准则，采用后向误差传播的随机梯度下降算法优化瓶颈特征映射网络权值，最小化网络输出瓶颈特征与各帧对应的瓶颈特征bn之间的误差。

7.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤6)中得到待转换的语音的联合特征参数Xp具体为：利用AHOcoder提取待转换语音的梅尔倒谱特征参数，并在MATLAB平台上对提取出的每一帧特征参数进行一阶差分和二阶差分，并与原特征进行拼接得到特征参数，在时域上将拼接得到的特征参数与前后各一帧的特征参数再进行拼接形成联合特征参数，即得到待转换的语音频谱的特征参数Xp。

8.根据权利要求1所述的一种非平行语料训练下基于VAE的语音转换方法，其特征在于，所述步骤9)中重建语音信号具体为：将转换后得到的语音特征参数Xp′还原为梅尔倒谱特征形式，即去掉时域拼接和差分项，再利用AHOcoder声音编解码器合成转换后的语音。