利索能及
我要发布
收藏
专利号: 2017102249258
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于说话人识别系统的i-vector后端增强方法,其特征在于,分为训练和识别两个阶段,训练阶段步骤如下:A-1),对训练说话人语音信号进行预处理,包括预加重、端点检测、分帧、加窗;

A-2),利用所述MFCC提取法,提取说话人语音信号的MFCC特征;

A-3),根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;

A-4),根据A-3)得到的特征充分统计量训练i-vector特征提取器,利用该提取器提取说话人语音信号的i-vector;

A-5),根据A-4)训练得到的i-vector特征提取器,提取纯净语音和含噪语音的i-vector,其中,含噪语音的i-vector作为DNN训练数据,纯净语音的i-vector作为标签数据;

A-6),根据A-4)得到的训练数据和标签数据,使用以下所述方法对深度神经网络模型进行训练,经过训练后的神经网络模型作为i-vector后端增强模块,与i-vector/PLDA说话人识别模型融合。

识别步骤为:

B-1),对识别语音进行预加重、端点检测、分帧、加窗,并提取识别语音的MFCC特征;

B-2),根据权利要求1中训练得到的i-vector特征提取器,提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入,该模型的输出为增强后的i-vector;

B-3),将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分,将PLDA输出的似然比得分与设定的阈值比较,做出最终判决结果。

2.如权利要求1所述的方法,其特征在于,在A-2)中,还包括:对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱,设语音信号的DFT为:式中x(n)为输入的语音信号,N表示傅里叶变换的点数;

将能量谱通过一组Mel尺度的三角形滤波器组,定义一个有M个滤波器的滤波器组,采用的滤波器为三角滤波器,中心频率为f(m),m=1,2,...,M,M取22-26;各f(m)之间的间隔随着m值的减小而缩小,随着m值的增大而增宽;

经离散余弦变换(DCT)得到MFCC系数:

将上述的对数能量带入离散余弦变换,求出L阶的梅尔频率倒谱参数;L阶指MFCC系数阶数,取12-16;这里M是三角滤波器个数。

3.如权利要求1所述的方法,其特征在于,在A-6)中,还包括:深层神经网络(deep neural network,DNN)训练步骤如下:(A-6-1)利用CD算法逐层预训练构成DBN网络的RBM参数,采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层,逐层累加得到多层结构;

(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构。利用误差反向传播算法,将MMSE函数作为优化函数,通过最小化优化函数得到最优参数。