利索能及
我要发布
收藏
专利号: 2017104387727
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音识别方法,所述方法包括:

获取待识别的语音数据;

提取所述语音数据中的Filter Bank特征和MFCC特征;

将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵,似然概率矩阵表示的是语音帧与音素状态上的对齐关系;

将所述Filter Bank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵;

根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵;

根据所述目标似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

2.根据权利要求1所述的方法,其特征在于,所述根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵的步骤包括:将所述Filter Bank特征和所述第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据,获取所述训练后DNN-HMM输出的第二似然概率矩阵;

将所述后验概率矩阵和所述第二似然概率矩阵作为训练后的HMM模型的输入数据,计算得到目标似然概率矩阵。

3.根据权利要求1所述的方法,其特征在于,所述提取所述语音数据中的Filter Bank特征和MFCC特征的步骤包括:将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱;

将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的Filter Bank特征;

将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

4.根据权利要求1所述的方法,其特征在于,所述将所述Filter Bank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵的步骤包括:获取待识别语音数据中每一帧语音数据对应的Filter Bank特征并按照时间排序;

将每一帧语音数据以及该帧的前后预设帧数的Filter Bank特征作为所述训练后的二维LSTM模型的输入特征,分别进行时间维度和层次纬度的计算,获取输出的包含有时间维度和层次纬度信息的每一帧语音数据对应的音素状态上的后验概率;

根据所述每一帧语音数据对应的音素状态上的后验概率确定所述待识别语音数据对应的后验概率矩阵。

5.根据权利要求1所述的方法,其特征在于,在所述获取待识别的语音数据的步骤之前还包括:采用训练语料库对高斯混合模型GMM和HMM进行训练,通过不断的迭代训练确定所述GMM模型对应的方差和均值;

根据所述方差和均值生成训练后的GMM-HMM模型;

根据所述训练语料库中提取的MFCC特征,采用训练后的GMM-HMM模型获取到所述训练语料库对应的似然概率矩阵;

根据所述训练预料库中提取的Filter Bank特征和所述似然概率矩阵对所述二维LSTM模型进行训练,确定与所述二维LSTM模型对应的权重矩阵和偏置矩阵;

根据所述权重矩阵和偏置矩阵生成训练后的二维LSTM模型。

6.一种语音识别装置,其特征在于,所述装置包括:

获取模块,用于获取待识别的语音数据;

提取模块,用于提取所述语音数据中的Filter Bank特征和MFCC特征;

输出模块,用于将所述MFCC特征作为训练后的GMM-HMM模型的输入数据,获取所述训练后的GMM-HMM模型输出的第一似然概率矩阵,似然概率矩阵表示的是语音帧与音素状态上的对齐关系;

第一计算模块,用于将所述Filter Bank特征作为训练后的二维LSTM模型的输入特征,分别进行时间维度和层次维度的计算,获取输出的包含有时间维度和层次维度信息的后验概率矩阵;

第二计算模块,用于根据所述后验概率矩阵和所述第一似然概率矩阵采用训练后的HMM模型计算得到目标似然概率矩阵;

解码模块,用于根据所述目标似然概率矩阵在音素解码网络中获取与所述待识别的语音数据对应的目标词序列。

7.根据权利要求6所述的装置,其特征在于,所述第二计算模块还用于将所述Filter Bank特征和所述第一似然概率矩阵作为训练后的DNN-HMM模型的输入数据,获取所述训练后DNN-HMM输出的第二似然概率矩阵,将所述后验概率矩阵和所述第二似然概率矩阵作为训练后的HMM模型的输入数据,计算得到目标似然概率矩阵。

8.根据权利要求6所述的装置,其特征在于,所述提取模块还用于将所述待识别的语音数据进行傅里叶变换转换为频域的能量谱,将所述频域的能量谱作为梅尔尺度的三角滤波器组的输入特征,计算得到待识别语音数据的FilterBank特征,将所述Filter Bank特征经过离散余弦变换得到待识别语音数据的MFCC特征。

9.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-5任意一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-5任意一项所述方法的步骤。