买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种用于说话人识别系统的后端i-vector增强方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种用于说话人识别系统的后端i-vector增强方法

￥10800

专利号： 2017102249258

申请人：南京邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种用于说话人识别系统的i-vector后端增强方法，其特征在于，分为训练和识别两个阶段，训练阶段步骤如下：A-1)，对训练说话人语音信号进行预处理，包括预加重、端点检测、分帧、加窗；

A-2)，利用所述MFCC提取法，提取说话人语音信号的MFCC特征；

A-3)，根据A-2)提取的MFCC特征训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量；

A-4)，根据A-3)得到的特征充分统计量训练i-vector特征提取器，利用该提取器提取说话人语音信号的i-vector；

A-5)，根据A-4)训练得到的i-vector特征提取器，提取纯净语音和含噪语音的i-vector,其中，含噪语音的i-vector作为DNN训练数据，纯净语音的i-vector作为标签数据；

A-6)，根据A-4)得到的训练数据和标签数据，使用以下所述方法对深度神经网络模型进行训练，经过训练后的神经网络模型作为i-vector后端增强模块，与i-vector/PLDA说话人识别模型融合。

识别步骤为：

B-1)，对识别语音进行预加重、端点检测、分帧、加窗，并提取识别语音的MFCC特征；

B-2)，根据权利要求1中训练得到的i-vector特征提取器，提取待识别说话人每条注册语音和识别语音的i-vector,并将这些i-vector分别作为权利要求1所述的DNN模型的输入，该模型的输出为增强后的i-vector；

B-3)，将待识别说话人注册语音增强后的i-vector和识别语音增强后的i-vector输入PLDA模型打分，将PLDA输出的似然比得分与设定的阈值比较，做出最终判决结果。

2.如权利要求1所述的方法，其特征在于，在A-2)中，还包括：对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，并对语音信号的频谱取模平方得到语音信号的功率谱，设语音信号的DFT为：式中x(n)为输入的语音信号，N表示傅里叶变换的点数；

将能量谱通过一组Mel尺度的三角形滤波器组，定义一个有M个滤波器的滤波器组，采用的滤波器为三角滤波器，中心频率为f(m),m＝1,2,...,M，M取22-26；各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，求出L阶的梅尔频率倒谱参数；L阶指MFCC系数阶数，取12-16；这里M是三角滤波器个数。

3.如权利要求1所述的方法，其特征在于，在A-6)中，还包括：深层神经网络(deep neural network，DNN)训练步骤如下：(A-6-1)利用CD算法逐层预训练构成DBN网络的RBM参数，采用自底向上的方法训练多个RBM,每个RBM隐含层作为下一RBM输入层，逐层累加得到多层结构；

(A-6-2)在训练好的DBN顶部添加线性输出层得到DNN结构。利用误差反向传播算法，将MMSE函数作为优化函数，通过最小化优化函数得到最优参数。

推荐专利

语音增强方法、语音识别方法、说话人识别方法和系统

发明专利

￥22700

一种基于i-vector说话人识别的声源定位方法

发明专利

￥19200

i-vector向量提取方法、说话人识别方法、装置、设备及介质

发明专利

面议

知识增强的产品问答社区用户对话情绪识别方法和系统

发明专利

￥30000

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们