1.一种基于神经音频编解码器的语音合成方法,其特征是,所述语音合成方法包括:提供待合成文本以及目标说话人的参考语音,并将所述参考语音、待合成文本加载到预先构建的语音合成模型Zero‑TTS,其中,所述语音合成模型Zero‑TTS包括神经音频编解码器、语音特征解耦模块以及语音预测编码器,其中,语音预测编码器、语音特征解耦模块与神经音频编解码器适配连接;
语音预测编码器接收待合成文本,并对待合成文本进行语音预测,以在语音预测后生成文本‑语音预测编码,且将所生成的文本‑语音预测编码加载至神经音频编解码器;
神经音频编解码器接收参考语音,并对所接收的参考语音依次进行语音编码以及编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码,并将所生成的参考语音连续残差量化编码加载至语音特征解耦模块;
对接收的参考语音连续残差量化编码,语音特征解耦模块提取得到目标说话人的说话人特征编码,并将所提取目标说话人的说话人特征编码加载至神经音频编解码器;
在神经音频编解码器内,将文本‑语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
2.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,所述神经音频编解码器包括神经音频编码器、神经音频解码器以及连续残差向量量化器,其中,对参考语音,神经音频编码器对所述参考语音进行语音编码,以在语音编码后生成参考语音编码信息;
连续残差向量量化器对参考语音编码信息进行编码连续量化,以在编码连续量化后生成参考语音连续残差量化编码;
神经音频解码器将语音预测编码以及目标说话人的说话人特征编码进行重构,以在重构后生成与目标说话人适配的目标语音。
3.根据权利要求2所述的基于神经音频编解码器的语音合成方法,其特征是,所述语音特征解耦模块至少包括说话人特征编码器,其中,对参考语音连续残差量化编码,说话人特征编码器提取得到目标说话人的说话人特征编码,并将所述目标说话人的说话人特征编码加载到神经音频解码器。
4.根据权利要求1所述的基于神经音频编解码器的语音合成方法,其特征是,语音编码预测器包括文本语义编码器、随机时长预测器以及正则化流,其中,文本语义编码器对待合成文本编码,以在编码后生成文本语义编码;
随机时长预测器基于随机采样生成所述待合成文本的时长信息;
基于待合成文本的文本语义编码以及待合成文本的时长信息,通过正则化流生成文本‑语音预测编码。
5.根据权利要求1至4任一项所述的基于神经音频编解码器的语音合成方法,其特征是,构建语音合成模型Zero‑TTS时,构建方法包括:构建语音合成基础模型以及用于对语音合成基础模型进行模型训练的基础模型训练数据集,其中,语音合成基础模型,包括神经音频编解码基础单元、语音特征解耦基础单元以及语音预测编码基础单元,其中,语音预测基础单元、语音特征解耦基础单元均与神经音频编解码基础单元适配连接;
所述基础模型训练数据集包括若干基础模型训练样本,对每个基础模型训练样本包括训练提示音以及与所述训练提示音对应的训练提示文本;
对上述的基础模型训练数据集进行划分,以至少划分生成训练样本集A以及训练验证集B,其中,训练样本集A的训练提示音所出自的说话人与训练验证集B的训练提示音所出自的说话人相一致,且训练样本集A内训练样本与训练验证集B内训练样本完全不同;
利用训练样本集A对语音合成基础模型进行一轮模型训练后,利用训练验证集B计算语音合成基础模型在当前轮模型训练后的模型损失;
利用训练样本集A对语音合成基础模型进行目标轮次的模型训练后,在所有计算的模型损失中确定模型损失优选值;
基于所确定的模型损失优选值选定对应的语音合成基础模型,并将所选定的语音合成基础模型配置为语音合成模型Zero‑TTS。
6.根据权利要求5所述的基于神经音频编解码器的语音合成方法,其特征是,神经音频编解码基础单元包括神经音频基础编码器、连续残差向量量化基础单元以及神经音频基础解码器;
利用基础模型训练数据集对语音合成基础模型进行模型训练前,将预训练生成的编码器预训练权重加载到神经音频基础编码器;
对每个基础模型训练样本中的训练提示音,神经音频基础编码器对训练提示音进行语音编码,以在语音编码后生成训练语音编码信息;
连续残差向量量化基础单元将训练语音编码信息进行编码连续量化,以在编码连续量化后生成训练语音连续向量编码;
将选定的语音合成基础模型作为语音合成模型Zero‑TTS时,基于选定语音合成基础模型内的神经音频编解码基础单元,形成语音合成模型Zero‑TTS内的神经音频编解码器。
7.根据权利要求6所述的基于神经音频编解码器的语音合成方法,其特征是,语音特征解耦基础单元包括语音语义编码器、说话人特征基础编码器和对数梅尔频谱解码器,其中,对训练语音连续向量编码,利用语音语义编码器进行语音语义提取,以生成样本语音语义编码,并利用说话人特征基础编码器提取得到训练提示音的说话人特征编码;
在模型训练时,将样本语音语义编码与由语音预测基础单元生成的样本文本语义编码进行对比提纯,以得到语音语义对比提纯编码;
将语音语义对比提纯编码、训练提示音的说话人特征编码加载到对数梅尔频谱解码器,以由所述对数梅尔频谱解码器生成训练样本解耦对数梅尔频谱;
最大化合成对数梅尔频谱的似然,最小化文本语义和语音语义距离,基于编解码器的编码‑解码结构构建的信息频率的提纯说话人特征;
将选定的语音合成基础模型作为语音合成模型Zero‑TTS时,基于语音特征解耦基础单元形成语音特征解耦模块,其中,基于说话人特征基础编码器形成语音特征解耦模块内的说话人特征编码器。
8.根据权利要求7所述的基于神经音频编解码器的语音合成方法,其特征是,对于语音预测基础单元,包括基础文本语义编码器、基础随机时长预测器以及基础正则化流,其中,对训练样本集A内的任一训练样本,基础文本语音编码器对训练提示文本进行编码,以在编码后生成训练文本语义编码,并将生成的训练文本语义编码加载到语音特征解耦基础单元;
基于训练文本语义编码,基础随机时长预测器预测训练提示文本的时长对齐信息的分布,在模型训练时,对由连续残差向量量化基础单元生成的提示语音连续向量编码,经基础正则化流计算得到隐变量;
采用单调对齐搜索方法确定隐变量与当前训练提示文本的对齐矩阵;
基础随机时长预测器预测所述对齐矩阵的分布,并基于对齐矩阵分布的最大似然估计的最小化,以优化所述基础随机时长预测器;
将选定的语音合成基础模型作为语音合成模型Zero‑TTS时,基于语音预测基础单元形成语音合成模型Zero‑TTS内的语音预测编码器。
9.根据权利要求8所述的基于神经音频编解码器的语音合成方法,其特征是,在计算模型损失时,包括:其中,Lbackbone为主干网络的损失,LC‑RVQ为主干网络的编码对比损失,Lrecon为主干网络的语音对比损失,Ladv为主干网络的语音判别损失,Ldis为语音特征解耦基础单元的训练损失,Lmel为对数梅尔频谱解码器的频谱对比损失,Lsem为语义对比损失。
10.根据权利要求5所述的基于神经音频编解码器的语音合成方法,其特征是,构建基础模型训练数据集时,包括:提供模型训练基础数据集,其中,所述模型训练基础数据集包括若干基础样本,对任一基础样本包括基础提示音以及与所述基础提示音对应的基础文本;
对每个基础样本进行标准化处理,以在标准化处理后生成训练样本,其中,对基础样本内的基础提示音进行标准化处理时,包括依次进行的降采样以及响度归一化;
对基础样本内的基础文本进行标准化处理时,包括在基本文本中的所有符号后添加一个空格,和/或,将每个句子的第一个字母大写;
当对基础样本进行标准化处理生成训练样本时,在语音合成前,对待合成文本、参考语音进行相同的标准化处理。