利索能及
我要发布
收藏
专利号: 2019104204161
申请人: 深圳市数字星河科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语音训练克隆口音及声韵方法,其特征在于,包括:以训练文本代表不同语调为分类,经训练后获得用户同一音标几个不同语调下的单元,文本转语音时候,根据文本的语调和训练经验获得对应的音素单元:a、训练所用文本词句单词,涵盖所有的音素、特殊组合发音的音节;

b、设置不同长度的语句,以获得用户朗读时候的换气必要动作所造成的声韵特征;

c、涵盖典型语气的文本语句,以获得用户在不同文本内涵意思,对语气声调影响的特征;

d、设置语调类,分别映射对应文本内容、音标、语音片段单元;

合成克隆语音, 包括如下要素:

目标克隆语音,其构成是一组语音片段单元,其内容为:y=(  ,  ,  ,….. ),则每个相邻的语音片段单元就需要进行矫正,取任意两个相邻语音片段单元 、 进行矫正运算;

分别将 、 语音片段单元进行分帧;

将帧长设定为12ms,获得语音帧的声音强度:创建用户声韵特征库,对所述用户对训练文本朗读的音频数据通低通滤波的解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,将既定时长的语音分解成既定时长帧集合,记载各帧段语音的平均声强或波幅,作为用户的声韵特征标准;

分子 是测量值的声压,分母 设定为20微帕,公式3对 声压振 幅绝对平均值运算,求得各个语音帧时间段声压平均值之后,代入上述的公式3中,算出语音帧相对的分贝值,和用户信息,映射的音标一并记载到系统中的声韵特征库;

克隆语音中取任意两个相邻语音片段单元 、 ,将 、 语音片段单元进行分帧,分别获得两组序列语音帧的声音强度组, 对应 为c=(  ,  ,  ,….. )、对应 为d=(  ,  ,  ,….. ),分别将 、 根据时间轴上的分布找到对应的时间段;

α=INT( 音素时长/帧时长*η);

β=INT( 音素时长/帧时长*η);

η为修正比例参数,即表示在音素中取η比例的帧参与缓差对齐的矫正;η赋值为0.085;

INT为取整函数,即取小于等于括号中的运算结果的最大整数, α、β分别为 、 中将参与矫正的语音帧个数;

将 、 音素的临界合成点声音强度L设定为:L为临界合成点声音强度;

以变量i对 音素中的帧从1开始编号,将 音素中从第h‑α+1个帧开始到最后一帧修正声音强度的公式:

以变量i对 音素中的帧从1开始编号,将 音素中从第一帧开始到第β个帧结束修正声音强度的公式:

通过以上及公式6、7、8,完成相邻语音片段单元的语音合成后对应音素声音强度的新赋值,通过循环依次将所有相邻的语音片段单元进行同样的矫正合成,强制对应音素强度为矫正计算后的强度。

2.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:创建用户音库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据的特征信息包括用户音素、特殊语音片段单元、时长信息保存到系统中用户信息的相关数据库的用户音库表格及特定服务器特定路径的文件夹中;

创建用户声韵特征库,用户对训练文本朗读的音频数据通过低通滤波解析运算,提取所述音频数据中的时长、长短句声中帧组中各自帧的声强均值或平方值信息保存到系统中用户信息的相关数据库的声韵特征库表格,作为用户的声韵特征标准,等待系统在克隆语音时候调用,用于修正克隆语音的声韵;

根据用户音库实现语音克隆, 在用户输入文本需要模拟克隆语音时,首先以标点符号文本特征识别文本语调类别,识别无结果是默认陈述语调,进一步,将文本分拆成音素、音节、单词,并根据分拆的特征文本在用户音库中检索其对应的语音片段单元,所述检索到多个记录时,根据语调类别进一步筛选,无语调识别结果时,将语调类设为陈述的类别检索;

所述创建用户音库,将经过滤波分析整理过的用户基于文本朗读的语音,进行分拆,获得与文本片段单元组对应的语音片段单元组y = (  ,  ,  ,….. ),并将所述文本片段单元组的标准语音的时长分别调出,获得s = (   ,  ,  ,….. ),即 的标准时长是、 的标准时长是 ,以此类推 的标准时长是 ,用户语音训练英语朗读基于文本内容,采循环递推打分分拆识别法:首先将文本分拆成单词组、音素、音节组,以单词、音素、音节的标准语音及其声学特征等作为标准参考模型,先设音素、音节、单词被用户朗读的时长为标准时长,即为音素、音节、单词在被标准发音朗读对应的时长,在被测用户朗读的语音上依次分拆该时长的语音段,进行比对获得最高分值的语音段,然后进行向前向后的加减时长的修正,获得音素、音节、单词较为匹配的语音段,将所述语音段、语音段时长、语音段声学特征、语音段映射的音节音素、用户信息及根据文本特征认定的语调类别一并保存。

3.根据权利要求1所述一种基于语音训练克隆口音及声韵方法,其特征在于,包括:一种声韵矫正的方法,以权利要求1中所述目标克隆语音,其构成是一组语音片段单元,其内容为:y=(  ,  ,  ,….. ),调出y语音片段单元对应的时长,获得s = (   ,  , ,….. ),对语音帧时长进行叠加求和运算:j为目标克隆语音的预计时长,将j值为检索条件,在声韵特征库中检索时长和j值最为接近的记录,所述记录对应的语音通过分帧获得各帧的声强数据组,读取为b=( ,  , ,….. ),计算目标克隆语音y的在其内部帧单元的声强a=( ,  ,  ,….. ),从目标克隆语音的第一帧开始,修正声韵的声强强度,计算公式如下: 为 第i帧声强,为 声韵特征库中检索到合乎条件的第i帧声强 , f为系统设置的声韵修正阀值,K为系统预设的声韵修正系数,在i小于等于m、n的前提下,通过循环计算矫正克隆模拟目标语音的声强,即i取值从1开始,递增1进行循环运算,直到不符合i值同时满足小于等于m、n的条件;

系统设置的声韵修正阀值f赋值为28dB,系统预设声韵修正系数k赋值为0.13。