买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于BN-SGMM-HMM低资源语音识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于BN-SGMM-HMM低资源语音识别方法

￥27600

专利号： 2021108972478

申请人：辽宁大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于BN‑SGMM‑HMM低资源语音识别方法，其特征在于，其步骤为：

1）训练数据预处理及提取：对原始数据库进行设置和分集，然后进行特征提取，得到MFCC特征；

1.1）准备原始的语料库，并在训练脚本中设置好语料库的路径；

1.2）执行数据准备脚本，将数据分为训练集，测试集，以及开发集，并生成说话人编号与语音之间的映射关系，说话人性别，以及原始语音文件的相关信息；

1.3）将相关信息生成好之后，开始准备字典以及对应的音素模型，至此数据准备已完成；

1.4）对语音信号进行特征提取，提取的范围为是训练集，开发集以及测试集，执行的脚本为steps/make_mfcc.sh和compute_cmvn_stats.sh；

1.5）在make_mfcc,sh中，需要经过预加重，分帧，加窗，快速傅里叶变换，梅尔变换，log能量，以及为了提取动态特征的一阶二阶差分计算，将原始的语音转换为特征向量；

1.6）得到特征后，执行compute_cmvn_stats.sh文件，将得到的声学特征经过倒谱均值方差归一化，至此特征提取部分已完成；

2）创建单音素声学模型：

2.1）将之前训练的MFCC特征用于初始化单音素的GMM模型；

2.2）采用E‑M算法对模型训练进行迭代，并进行数据对齐；

2.3）将上次训练得到对齐模型再进行迭代，直到模型收敛；

3）创建三音素声学模型：得到FMLLR特征；

4）训练神经网络：将FMLLR特征作为瓶颈神经网络的输入特征，经过神经网络训练后移除瓶颈层之后的网络层，瓶颈层作为输出层最终提取出经过交叉熵训练的瓶颈特征；

5）BN‑SGMM‑HMM的训练：将神经网络提取出来的瓶颈特征作为SGMM‑HMM声学模型的输入特征，最终构成BN‑SGMM‑HMM；

6）硬件实现：将Kaldi编译的过程放在虚拟机上进行编译，并将最终编译完成的文件存入树莓派中；更新当前终端所包含的控制变量；最后确认树莓派交叉编译环境配置是否完成；

7）将训练好的声学模型文件、语音模型词网络文件以及词典文件移植到树莓派当中输入语音并通过Kaldi自带的解码器进行解码，最后将语音的文本输出到终端上。

2.根据权利要求1所述的基于BN‑SGMM‑HMM低资源语音识别方法，其特征在于，所述的步骤3）中，具体方法为：

3.1）以对齐的单音素模型的基础上进行训练，同时训练对语料库进行训练，生成语言字典文件，语音路径文件，语音与说话人映射文件以及语段的音素文件，并将三音素模型放到一起进行相似性聚类裁剪，发音相似的三音素模型聚类到一个模型，共享参数；之后，通过训练单音素模型的方法，对三音素模型进行训练；

3.2）进行特征变换，包括线性判别分析,最大似然线性变换以及说话人自训练；说话人自训练基于FMLLR，得到的FMLLR特征则用于下一步神经网络的训练。

3.根据权利要求1所述的基于BN‑SGMM‑HMM低资源语音识别方法，其特征在于，所述的步骤4）中，具体方法为：

4.1）在神经网络正式训练之前，采用有限玻尔兹曼机RBM的无监督训练逐层初始化，并将训练好的RBM模型进行堆叠，堆叠好的RBM模型组成了DBN模型；在kaldi中是通过执行pretrain_dbn.sh完成神经网络预训练；在预训练过程中所有的RBM使用CD算法配合小批量随机梯度下降算法进行训练，每一个mini‑batch的大小为256，冲量因子的设置为0.9，没有设置权重衰减；第一个RBM则采用高斯‑伯努利单元，其学习速率为0.005，迭代次数为50；而后面的RBM采用伯努利‑伯努利单元，其学习率为0.08，迭代次数为25次，且实验隐层节点数为1024；

4.2）在微调过程中采用反向传播算法，初始的学习率为0.008，采用的激活函数为Sigmoid；在训练时，前10个周期保持学习率不变，从第11个周期开始，每训练一个周期，学习率变为原来的一半，一共迭代30次，当两次迭代之间学习率之差小于0.001时停止训练；

若30次后还没有满足上述条件则强制停止训练；所述的神经网络的结构为1层输入层，5层隐藏层以及1层输出层，共7层，其中第一层输入层440个结点，隐藏层除了第四层隐藏层为

40个结点外都为1024个结点，而输出层为2016个结点，对应GMM‑HMM基线系统中聚类后三音素的状态数；

4.3）网络训练结束后，将瓶颈特征提取出来，具体过程是在训练的时候将train.sh中BN层设置一下，将瓶颈层结点数bn_dim的数值进行设置，然后调用make_bn_feats.sh脚本，提取完特征后会将瓶颈层后面的网络移除，得到的瓶颈特征再经过CMVN后即可完成瓶颈特征提取，该特征用于后面搭建SGMM‑HMM基线系统。

4.根据权利要求1所述的基于BN‑SGMM‑HMM低资源语音识别方法，其特征在于，所述的步骤5）中，具体方法为：

5.1）SGMM‑HMM模型的训练时，首先需要训练一个HMM模型，获得GMM‑HMM的状态绑定，将这个声学模型高斯聚类，生成400个UBM，再将UBM模型训练需要E‑M算法来对参数进行调优；

要完成一个初始化的SGMM模型，还有最后两步E‑M训练，第一步用Viterbi状态对齐GMM‑HMM基线；第二步是用Viterbi对齐来得到SGMM模型；最后用基于MMI准则的区分性训练，得到最终的BN‑SGMM‑HMM模型。