利索能及
我要发布
收藏
专利号: 2021102377801
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语音分割的合成语音检测方法,其特征在于,分别将自然语音和合成语音提取到的CQCC特征输入到两个初始化后的GMM模型值中进行训练,采用训练完成的GMM模型对输入的语音进行检测,得到检测结果;

训练具体为训练4个GMM模型,自然语音数据集与合成语音数据集各训练两个GMM模型;

自然语音数据集对应的两个GMM模型的训练过程为:将自然语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行CQCC特征提取,对无声片段计算其过零率;

将CQCC和过零率分别输入两个GMM模型进行训练,更新其参数;

达到预设的训练次数,最终得到参数训练好的GMM模型;

合成语音数据集对应的两个GMM模型的训练过程为:将合成语音数据集进行预处理得到分割后的语音片段和无声片段,对有声片段进行CQCC特征提取,对无声片段计算其过零率;

将CQCC和过零率分别输入两个GMM模型进行训练,更新其参数;

达到预设的训练次数,最终得到参数训练好的GMM模型。

2.根据权利要求1所述的一种基于语音分割的合成语音检测方法,其特征在于,所述预处理具体为:从自然语音数据集或合成语音数据集中获取全部的训练数据,并检查语音识别的采样率;

判断采样率是否为16kHz,若否,则使用工具包sox转换语音采样率为16kHz,当语音采样率为16kHz时,使用语音强制对齐工具p2fa检测语音信号的端点,以此标记语音句子中每个单词的开始和结束位置;

根据标记的端点进行语音切割,将语音数据分割为单词片段以及无声片段。

3.根据权利要求2所述的一种基于语音分割的合成语音检测方法,其特征在于,所述CQCC特征提取,包括以下分步骤:将有声片段进行预加重处理;

将预加重处理后的有声片段按10ms分为短段,每段之间有部分重叠;然后进行加窗;

进行恒定Q变换,然后将幅度平方取对数获得功率谱,对功率谱进行均匀采样,最后进行离散余弦变换,得到CQCC系数。

4.根据权利要求3所述的一种基于语音分割的合成语音检测方法,其特征在于,还包括对训练好的两个GMM模型进行加权求和,通过分别对两个GMM模型赋予不同的权重并测试准确率,两个GMM模型权重之和为1,选择准确率最大值对应的权重作为两个GMM模型的权重。

5.根据权利要求4所述的一种基于语音分割的合成语音检测方法,其特征在于,检测过程具体为:将输入的完整语音按照单词进行分片,同时产生无声的静默片段;

对语音片段进行CQCC特征提取,并计算无声片段的过零率;

将CQCC和过零率输入已经训练好的GMM模型进行推断,得出检测结果。