1.一种语音合成方法,其特征在于,包括:
获取语音样本,所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签;
调用待训练的语音合成模型,所述语音合成模型包括参考编码器、嵌入层和解码器;所述嵌入层包括第一嵌入层和第二嵌入层;
将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;
将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合,得到组合特征向量;将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量;
将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;
获取所述语音数据的真实梅尔频谱,并根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;
获取待合成语音的目标语音情绪标签和目标身份标签,将所述目标语音情绪标签和所述目标身份标签输入所述参考编码器进行处理,得到所述目标语音情绪标签对应的目标韵律特征向量和所述目标身份标签对应的目标音色特征向量;
将所述目标韵律特征向量、所述目标音色特征向量以及与所述待合成语音对应的目标文本特征向量输入所述嵌入层进行叠加操作,得到候选特征向量;将候选特征向量输入所述解码器进行解码处理,得到所述待合成语音的梅尔频谱;
根据所述待合成语音的梅尔频谱,生成目标语音信息。
2.如权利要求1所述的语音合成方法,其特征在于,所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量之前,还包括:调整所述组合特征向量和/或所述文本特征向量,使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致;
所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量,包括:将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量。
3.如权利要求2所述的语音合成方法,其特征在于,所述调整所述组合特征向量和/或所述文本特征向量,包括:确定待调整的目标矩阵尺寸;
获取所述组合特征向量的第一矩阵尺寸,根据所述目标矩阵尺寸和所述第一矩阵尺寸,确定所述组合特征向量的待调整的第一矩阵位置;
通过预设标识填充待调整的所述第一矩阵位置;和/或
获取所述文本特征向量的第二矩阵尺寸,根据所述目标矩阵尺寸和所述第二矩阵尺寸,确定所述文本特征向量的待调整的第二矩阵位置;
通过预设标识填充待调整的所述第二矩阵位置。
4.如权利要求1所述的语音合成方法,其特征在于,所述根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛,包括:根据所述梅尔频谱和真实梅尔频谱,计算所述语音合成模型的模型损失值;
基于所述模型损失值更新所述语音合成模型的模型参数,根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练;
当确定更新模型参数的所述语音合成模型处于收敛状态,得到训练好的语音合成模型。
5.如权利要求1‑4中任一项所述的语音合成方法,其特征在于,所述获取语音样本,包括:获取多个第一语音样本和多个第二语音样本,所述第一语音样本包括第一语音数据和所述第一语音数据对应的语音情绪标签,所述第二语音样本包括第二语音数据和所述第二语音数据对应的身份标签;
通过所述多个第一语音样本训练第一预设分类器,得到训练好的话语情绪分类器,以及通过所述多个第二语音样本训练第二预设分类器,得到训练好的用户身份分类器;
获取用户的目标语音数据,通过所述话语情绪分类器确定所述目标语音数据对应的语音情绪标签,并通过所述用户身份分类器确定所述目标语音数据对应的身份标签;
将所述语音情绪标签和身份标签标注于所述目标语音数据,得到所述语音样本。
6.一种语音合成装置,其特征在于,用于实现如权利要求1‑5中任一项所述的语音合成方法,所述语音合成装置包括:获取模块,用于获取语音样本,所述语音样本包括用户的语音数据和所述语音数据对应的语音情绪标签和所述用户的身份标签;
调用模块,用于调用待训练的语音合成模型,所述语音合成模型包括参考编码器、嵌入层和解码器;
编码模块,用于将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;
叠加模块,用于将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量;
解码模块,用于将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;
所述获取模块,还用于获取所述语音数据的真实梅尔频谱;
调整模块,用于根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;
所述获取模块,还用于获取待合成语音的目标语音情绪标签和目标身份标签;
输入模块,用于将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型,得到所述待合成语音的梅尔频谱;
生成模块,用于根据所述待合成语音的梅尔频谱,生成目标语音信息。
7.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至5中任一项所述的语音合成方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的语音合成方法的步骤。