买专利、卖专利、专利购买、专利交易、专利出售、高企申报-语音识别方法、服务器及计算机可读存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

语音识别方法、服务器及计算机可读存储介质

面议

专利号： 2018102274748

申请人：平安科技(深圳)有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种语音识别方法，应用于服务器，其特征在于，所述方法包括：

构建声学模型，其中所述声学模型包括音素训练模型及混合神经网络模型，所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM，通过CNN-HMM来减少说话人差异性，通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模，并通过DNN-HMM区分不同的音素，分类输出对应输入语音信息的识别音素；

当获取到原始语音信号时，对所述语音信号进行预处理以提取出有效的语音部分；

从所述有效的语音部分提取声学特征；

将所述声学特征输入至所述声学模型，通过已经训练完成的音素训练模型对声学特征进行音素识别，并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率，在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中基于记忆单元连接的RNN-LSTM模型，并将最后一层LSTM的输出输入至所述前馈神经网络DNN；

输出与所述语音信息相对应的文本信息。

2.如权利要求1所述的语音识别方法，其特征在于，所述当获取到原始语音信号时，对所述语音信号进行预处理以提取出有效的语音部分的步骤，具体包括：预加重所述语音信号以提升所述语音信号中的高频部分；

对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号；

去除所述短时平稳信号的噪音，提取有效的语音部分，其中所述有效的语音部分为预设频率内的短时平稳信号。

3.如权利要求2所述的语音识别方法，其特征在于，所述从所述有效的语音部分提取声学特征的步骤，具体包括：对所述有效的语音部分进行傅立叶变换，以将时域的所述语音部分转换成频域的能量频谱；

根据所述能量频谱通过一组梅尔尺度的三角滤波器组，突出所述语音部分的共振峰特征；

将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征。

4.如权利要求1-3任一项所述的语音识别方法，其特征在于，所述音素训练模型包括单音素模型以及三音素模型，所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型，还包括：通过所述单音素模型根据所述声学特征比较不同音素发音的相似度，并输出对齐结果至所述三音素模型；

通过所述三音素模型结合当前音素的前后相关音素的影响，并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型；

将CNN模型的输出结果输出至所述RNN-LSTM模型。

5.如权利要求4所述的语音识别方法，其特征在于，所述声学特征为MFCC(mel frequency cepstrum coefficient)。

6.一种服务器，其特征在于，所述服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的语音识别系统，所述语音识别系统被所述处理器执行时实现如下步骤：构建声学模型，其中所述声学模型包括音素训练模型及基于记忆单元连接的混合神经网络模型，所述混合神经网络模型包括基于记忆单元连接的长短时递归神经网络HLSTM-RNN、卷积神经网络CNN、前馈神经网络DNN以及隐马尔可夫模型HMM，通过CNN-HMM减少说话人差异性，通过RNN-LSTM-HMM捕捉语音的时序信息、利用一句话中的历史信息进行上下文建模，并通过DNN-HMM区分不同的音素，分类输出对应输入语音信息的识别音素；

当获取到原始语音信号时，对所述语音信号进行预处理以提取出有效的语音部分；

从所述有效的语音部分提取声学特征；

将所述声学特征输入至所述声学模型，通过已经训练完成的音素训练模型对声学特征进行音素识别，并根据所述混合神经网络模型中的隐马尔可夫模型HMM中状态的发生概率，在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型，并将最后一层LSTM的输出输入至所述前馈神经网络DNN；

输出与所述语音信息相对应的文本信息。

7.如权利要求6所述的服务器，其特征在于，所述当获取到原始语音信号时，对所述语音信号进行预处理以提取出有效的语音部分的步骤，具体包括：预加重所述语音信号以提升所述语音信号中的高频部分；

对所述语音信号进行分帧加窗以将非平稳信号转换成短时平稳信号；

去除所述短时平稳信号的噪音，提取有效的语音部分，其中所述有效的语音部分为预设频率内的短时平稳信号。

8.如权利要求6所述的服务器，其特征在于，所述从所述有效的语音部分提取声学特征的步骤，具体包括：对所述有效的语音部分进行傅立叶变换，以将时域的所述语音部分转换成频域的能量频谱；

根据所述能量频谱通过一组梅尔尺度的三角滤波器组，突出所述语音部分的共振峰特征；

将所述三角滤波器组输出的能量频谱通过离散余弦变换得到声学特征，其中，所述声学特征为MFCC(mel frequency cepstrum coefficient)。

9.如权利要求7-8任一项所述的服务器，其特征在于，所述音素训练模型包括单音素模型以及三音素模型，所述在解码网络中选择发生概率最大的路径作为识别结果输出至所述混合神经网络模型中的基于记忆单元连接的RNN-LSTM模型，还包括：通过所述单音素模型根据所述声学特征比较不同音素发音的相似度，并输出对齐结果至所述三音素模型；

通过所述三音素模型结合当前音素的前后相关音素的影响，并输出强制音素对齐结果至所述混合神经网络模型中的CNN模型；

将CNN模型的输出结果输出至所述基于记忆单元连接的RNN-LSTM模型。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有语音识别系统，所述语音识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-5中任一项所述的语音识别方法的步骤。