买专利、卖专利、专利购买、专利交易、专利出售、高企申报-歌曲合成方法、装置、设备及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

歌曲合成方法、装置、设备及存储介质

￥16800

专利号： 2020103502560

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种歌曲合成方法，其特征在于，所述歌曲合成方法包括：获取目标歌曲的歌词朗诵音频和乐谱信息，所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息；

通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注，得到所述音素的朗诵时长，所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长；

通过预置声码器对所述歌词朗诵音频进行分析，得到所述音素对应的初始声学参数，所述初始声学参数包括基频、频谱包络与非周期序列；

根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长，所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长；

根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理，得到目标声学参数，所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列；

对所述变速后的频谱包络进行共振峰增强处理，得到增强后的频谱包络；

基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理，得到矫正后的基频；

所述基于所述音高信息、所述歌唱时长和所述变速后的基频进行矫正处理，得到矫正后的基频，包括：基于所述音高信息、所述歌唱时长和所述变速后的基频生成歌曲的基频；

将所述初始声学参数中的基频进行叠加并计算平均值，得到平均基频；

基于所述平均基频对所述歌曲的基频进行升调或者降调处理，得到初始基频序列，所述初始基频序列包括音高和音符；

当检测到所述初始基频序列中存在同一个文字对应不同的音高时，对相同的音高对应的音符进行平滑处理；

当检测到所述初始基频序列中相邻的音符之间存在所述音高的变化时，通过预置公式对所述相邻的音符之间进行准备和过冲处理，所述预置公式为，

其中，所述s为所述初始基频序列，所述ω为固有频率，所述ξ为阻尼系数，所述k为比例增益；

当检测到所述初始基频序列中所述音符的预置时长大于预置阈值时，对所述音符对应的初始基频序列加入颤音；

当检测到所述初始基频序列中所述音符存在过度平滑时，对所述初始基频序列加入白噪声，得到矫正后的基频；

通过所述预置声码器对所述变速后的非周期序列、所述增强后的频谱包络和所述矫正后的基频进行歌曲合成处理，得到合成歌曲。

2.根据权利要求1所述的歌曲合成方法，其特征在于，所述通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注，得到所述音素的朗诵时长，所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长，包括：对所述乐谱信息进行解析，并从解析后的乐谱信息中读取所述歌词拼音文本；

将所述歌词朗诵音频与所述歌词拼音文本输入到预置语音识别模型中，并通过所述预置语音识别模型对所述歌词朗诵音频进行语音解析；

通过预置语音识别模型对语音解析后的歌词朗诵音频中的音素按照所述歌词拼音文本进行标注，得到所述音素的时间戳和持续时长，所述音素包括声母和韵母；

根据所述音素的时间戳和所述持续时长确定所述音素的朗诵时长，所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长。

3.根据权利要求1所述的歌曲合成方法，其特征在于，所述根据预置声母变速字典、所述节奏信息和所述节拍信息从所述歌词拼音文本中提取所述音素的歌唱时长，所述音素的歌唱时长包括声母歌唱时长和韵母歌唱时长，包括：根据所述节奏信息和所述节拍信息从所述歌词拼音文本中提取每个文字的歌唱时长t；

根据所述每个文字的歌唱时长t从预置声母变速词典中查询得到所述每个文字的声母歌唱时长t1；

对所述每个文字的歌唱时长t和所述每个文字的声母歌唱时长t1进行差运算，得到所述每个文字的韵母歌唱时长t2，其中，t2＝t‑t1；

将所述每个文字的声母歌唱时长和所述每个文字的韵母歌唱时长设置为所述每个文字对应的音素的歌唱时长。

4.根据权利要求1所述的歌曲合成方法，其特征在于，所述根据预置变速算法、所述朗诵时长和所述歌唱时长对所述初始声学参数进行变速处理，得到目标声学参数，所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列，包括：根据所述声母朗诵时长、所述韵母朗诵时长、所述声母歌唱时长和所述韵母歌唱时长计算所述音素的变速速率r，且所述r>0；

通过预置变速算法按照所述变速速率r对所述初始声学参数进行变速处理，得到变速后的声学参数；

将所述变速后的声学参数进行串联拼接，得到目标声学参数，所述目标声学参数包括变速后的基频、变速后的频谱包络和变速后的非周期序列。

5.根据权利要求4所述的歌曲合成方法，其特征在于，所述通过预置变速算法按照所述变速速率r对所述初始声学参数进行变速处理，得到变速后的声学参数，包括：当所述r等于1时，确定所述初始声学参数为变速后的声学参数；

当所述r等于2时，对所述初始声学参数进行延长两倍处理，得到变速后的声学参数；

当所述r小于2，且所述r不等于1时，采用预置等比加减帧算法对所述初始声学参数进行变速处理，得到变速后的声学参数；

当所述r大于2时，将所述初始声学参数延长两倍以上，得到变速后的声学参数。

6.根据权利要求1所述的歌曲合成方法，其特征在于，所述对所述变速后的频谱包络进行共振峰增强处理，得到增强后的频谱包络，包括：从所述变速后的频谱包络中查询3千赫兹左右频率段内共振峰，并记录所述共振峰的中心频率和幅值；

根据所述共振峰的中心频率和幅值确定提升滤波器的强度系数和待增强的中心频率；

根据所述提升滤波器的强度系数和所述待增强的中心频率进行共振峰增强，得到共振峰增强谱；

对所述共振峰增强谱进行滤波处理，得到增强后的频谱包络。

7.一种歌曲合成装置，其特征在于，所述歌曲合成装置包括：获取模块，用于获取目标歌曲的歌词朗诵音频和乐谱信息，所述乐谱信息包括歌词拼音文本、节拍信息、节奏信息和音高信息；

标注模块，用于通过预置语音识别模型和所述歌词拼音文本对所述歌词朗诵音频中的音素进行时长标注，得到所述音素的朗诵时长，所述音素的朗诵时长包括声母朗诵时长和韵母朗诵时长；