买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度神经网络的自动语音识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度神经网络的自动语音识别方法

￥17400

专利号： 2021105993059

申请人：杭州芯声智能科技有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度神经网络的自动语音识别方法，其特征在于，通过如下步骤进行自动语音识别：通过音频采集设备对原始语音信号进行采样，并得到原始语音数据；

提取原始语音数据的Log Fbank声学特征；

构建声学模型；

将Log Fbank声学特征输入声学模型当中，得到声学模型输出数据；

对声学模型输出数据进行CTC解码，并得到解码数据；

通过预先设定的拼音列表对解码数据进行映射，得到拼音序列；

将拼音序列输入语言模型中进行语言识别，并得到语言识别结果；

所述声学模型为采用VGG加Bi‑GRU结合的神经网络声学模型，所述声学模型包括VGG层、Dense层和Bi‑GRU层；所述声学模型通过如下步骤得到Log Fbank声学特征的原始预测数据：将Log Fbank声学特征作为输入到VGG层中并将输出送入到下一层进行处理，所述声学模型共设置有8组VGG层，所述8组VGG层依次首尾串连，并进行8次VGG计算，并得到最终的VGG层输出数据；

将VGG层输出数据输入到Dense层中，进行特征平滑，得到特征平滑输出；

将特征平滑输出放入Bi‑GRU层进行计算，得到一次Bi‑GRU层输出；

将一次Bi‑GRU层输出再次放入Bi‑GRU层，得到二次Bi‑GRU层输出；

将二次Bi‑GRU层输出输入到Dense层进行特征平滑，得到二次特征平滑输出；

将二次特征平滑输出再次输入Dense层，得到声学模型输出数据。

2.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述音频采集设备以16000Hz采样率对原始语音信号进行采样，原始语音数据以16bit整型进行保存，且每份原始语音数据时长不超过4秒。

3.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，提取原始语音数据的Log Fbank声学特征需要进行如下步骤：通过高通滤波器对原始语音数据进行预加重；

通过分帧函数对预加重数据进行分帧操作；

将每一分帧带入窗函数进行加窗操作；

对加窗后的各分帧信号进行快速傅里叶变换得到各分帧的能量谱；

通过梅尔滤波器组对能量谱进行点积运算，得到梅尔频谱图；

对梅尔频谱图进行取对数变换。

4.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述VGG层通过依次串连的第一CNN层、第二CNN层和Max_pooling层构成，其中，第一CNN层和第二CNN层用于数据卷积化，Max_pooling层用于数据池化，所述第一CNN层的卷积核为5*5，所述第二CNN层的卷积核为3*3。

5.根据权利要求3所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述CTC解码用于对声学模型输出数据进行CTC处理将连续出现的相同结果合并，去除多余结果。

6.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述语言模型采用隐马尔科夫语言模型，所述语言模型将拼音序列作为模型输入，并得到对应的文字识别结果；所述语言模型通过如下步骤进行拼音‑文字转化：S1将拼音序列作为输入，并通过声韵母分割处理法，得到以拼音音组为基本分割单元的拼音序列；

S2通过拼音‑文字字典将各个拼音音组映射得到对应的文字序列，其中，文字序列中保存着同一个拼音音组对应的不同汉字；

S3将各个拼音音组对应文字序列中所有汉字的出现的初始概率值设置为1；

S4将相邻的拼音音组对应文字序列中所有汉字按照两字词组进行排列组合；并保存为筛选序列；

S5构建两字词频率词典，两字词频率词典中保存着常用两字词组、所属领域常用两字词组、其他两字词组和两字词组对应的出现频率值；

S6将筛选序列中各排列组合的两字词组在两字词组词典中进行检索，若存在，则进行保留；若不存在，则删除；并得到最终的状态转移序列中；

S7构建一字词频率词典，所述一字词频率词典中保存着常用一字词、所属领域一字词、其他一字词和一字词对应出现的频率值；

S8计算状态转移序列中各两字词组的状态转移概率，其转移状态公式为：其中，A，B分别表示两字词组的首字与尾字；P0表示初始概率值；P2(A.B)表示两字词组对应的出现频率值；P1(A)表示首字作为一字词出现的频率值；

S9将各两字词组的状态转移概率与转移阈值进行比较，若高于转移阈值，则将当前两字词组作为输出结果进行更新，并保存当前状态转移概率值；

S10重复S1至S9步骤，直至得到所有转移概率值和对应的输出结果，并将各输出结果进行依次排列，作为最终的语言识别结果进行输出。

7.根据权利要求1所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述Bi‑GRU层即双向GRU神经网络模型，包括正向GRU单元和反向GRU单元，输入数据分别进入正向GRU单元和反向GRU单元进行计算，并将正向GRU单元输出与反向GRU单元输出进行拼接或求和作为Bi‑GRU层的输出。

8.根据权利要求6所述的一种基于深度神经网络的自动语音识别方法，其特征在于，所述自动语音识别方法用于对汉语和/或外语进行自动语音识别，所述拼音‑文字字典为对应识别语言发音与文字对应的字典。

9.根据权利要求3所述的一种基于深度神经网络的自动语音识别方法，其特征在于，汉明窗函数为：其中，n表示被截取信号的窗口宽度；a0表示汉明窗常数，值为25/46；N‑1表示汉明窗的截取窗口长度；