利索能及
我要发布
收藏
专利号: 2017100883003
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于自动编码深度置信网络的高质量说话人识别方法,其特征在于,包括说话人模型训练阶段和说话人识别阶段,该方法包括以下步骤:(1)模型训练阶段:对不同说话人语音信号进行预处理,提取语音特征,得到每个人的特征向量,并对特征向量以不同人为类别,进行标记;

(2)用步骤(1)中所有说话人特征数据对深度置信网络进行有监督的训练,得到自动编码深度置信网络模型;

(3)每个人未标注特征数据依次经过步骤(2)训练完成的自动编码深度置信网络进行编码重构得到的输出作为矢量量化模型输入,训练矢量量化模型;

(4)模型识别阶段:待识别语音的特征经过自动编码深度置信网络编码重构,输入矢量量化模型进行识别。

2.根据权利要求1所述方法,其特征在于,步骤(1)得到每个人的特征向量内容是:提取说话人语音40维MFCC参数,除去代表直流分量的第一维数据,然后每帧进行前后两帧拼接,形成195维的特征向量。

3.根据权利要求1所述方法,其特征在于,步骤(2)中:将多层受限波尔兹曼机进行堆叠,构成深度置信网络;训练数据经第一层受限波尔兹曼机可视层输入,对第一层网络进行训练,第一层网络的输出作为第二层输入进行下一层的训练,按照以上方式构建深度置信网络模型。

4.根据权利要求1所述方法,其特征在于,步骤(2)中:构建完成深度置信网络后,利用每层训练的参数构建其对称网络,经过反向微调,最终构建出自动编码深度置信网络模型。

5.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:说话人的多帧195维特征数据经过自动编码深度置信网络编码重构后输出同样为195维特征向量。

6.根据权利要求1所述方法,其特征在于,步骤(3)和步骤(4)中:采用矢量量化模型作为系统的最终识别器。