买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种中文语音增强识别及文本纠错矫正方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种中文语音增强识别及文本纠错矫正方法

￥28800

专利号： 202211295191X

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种中文语音增强识别及文本纠错矫正方法，其特征在于，包括以下步骤：

S1：对待识别音频进行预处理，得到预处理后的音频，并基于GMM‑SVM建立初始粗糙方言鉴别模型；

S2:建立初始网络模型并对所述初始粗糙方言鉴别模型进行训练，得到方言鉴别模型；

将所述预处理后的音频与标准语库进行匹配，根据匹配状态确定鉴权结果，输出矫正后的音频信息，其中标准语库包含发音规则库、用户常用语库、音节知识库；

S3:将所述矫正后的音频信息转为语音文本，基于词典知识库进行分词，通过N‑gram语言模型确定纠错候选分词集合；

S4:将N‑gram语言模型进一步简化，得到Bigram2元语言模型，使用N‑gram语言模型和Bigram2元语言模型对所述语音文本进行纠错矫正后输出。

2.根据权利要求1所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，所述步骤S1具体包括以下步骤：S101:利用音频合成模型Tacotron2.0对待识别音频进行降噪、修复补全、模糊增强处理，得到预处理后的音频；

S102:采用GMM‑SVM模型，对GMM中每个高斯分量均值构建一个高斯超向量作为SVM的样本；

S103:基于GMM‑SVM模型，采用样本语音数据进行机器学习，获得初始粗糙方言鉴别模型，其中GMM‑SVM模型的预测神经元的输入输出函数为：Wi(k+i)＝Wi(k)+λdi(k+1)

λ＞0，i＝1,2......N

其中，W为预测神经元的连接权值，N为输入层单元个数,k为循环变量，λ为学习率，di为连接权值的距离偏离度，x(p)为真实值，为预测值，x(n),x(n+1)···x(m)表示同一组样本语音数据，δp为真实值与预测值的差值，Ep表示整个样本空间的总误差；给定一组初始值wi(0)进行计算，直到满足收敛条件，即Ep达到最小时，得到所述初始粗糙方言鉴别模型。

3.根据权利要求1所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，所述步骤S2具体包括以下步骤：S201：采用GMM‑UBM模型和LSTM模型的组合模型建立初始网络模型，将样本语音数据输入所述初始网络模型进行识别训练；

S202：对所述样本语音数据标注对应的方言类型，将标注后的所述样本语音数据输入所述初始网络模型进行深度学习训练；在训练过程中，调整所述初始网络模型的模型参数至初始网络模型输出的方言类型与所述样本语音数据标注的方言类型相匹配，根据此时所述初始网络模型参数调整所述初始粗糙方言鉴别模型参数，得到该类型方言的方言鉴别模型；

S203：将预处理后的音频输入每个类型方言对应的方言鉴别模型，获得所述预处理后的音频对应的每个类型方言的预测值；比较得到的每个类型方言预测值的最大值，该最大值对应的方言类型为待识别音频的方言类型；将预处理后的音频与标准语库进行匹配，根据匹配状态确定鉴权结果，输出矫正后的音频信息。

4.根据权利要求1所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，所述步骤S3中词典知识库包含基础词词库、语句逻辑库、语境库和语义语法数据库；所述步骤S3中具体包括以下内容：对所述步骤S2中矫正后的音频信息转换为语音文本，对所述语音文本进行预处理得到文本输入串，对所述文本输入串进行初始纠错，初始纠错过程具体为：根据N‑gram语言模型中的分割模型，对所述文本输入串进行分词处理，得到N1序列和N2序列；计算所述N1序列和N2序列中各个关键词被所述N‑gram语言模型分割出来的概率，再根据所述概率对所述待纠错的文本数据进行二次的分词处理，得到N3序列；计算所述N3序列中每个句子的关键词的词频，判断词频是否达到预设的词频纠错阈值α1，其中词频通过基础词词库获得；若达到所述词频纠错阈值α1，则认为关键词无需纠错，若未达到所述词频纠错阈值α1时将对应的第一关键词通过所述N‑gram语言模型转换为拼音特征，其中第一关键词为词频数最大的关键词；

根据所述拼音特征，使用召回模型召回所述第一关键词对应的候选词，并从候选词中选择其他词对所述第一关键词进行纠错。

5.根据权利要求4所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，在所述步骤S3中，获得所述纠错候选分词集合的过程具体包含：所述N‑gram语音模型中所述N3序列中每个句子得分概率的公式为：其中，p(s)表示句子得分概率，wi表示句子中第i个关键词所占的权重比，i＝1,...,n；

利用词间连续关系进行查错，若w1与wn‑1之间或wi与wi‑1之间的p(s)满足所述词频纠错阈值α1，即可判断wi对应的关键词与wi‑1对应的关键词、wi+1对应的关键词接续，进而判断wi对应的关键词是否错误；

根据对关键词是否错误的判断结果确定纠错候选分词集合，将所述纠错候选分词集合交叉组合形成若干纠错候选句，所述若干纠错候选句构成混淆集；考虑到语音识别时存在多音字情况，初始混淆集采用拼音混淆集。

6.根据权利要求5所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，所述步骤S4中具体包含以下内容：Bigram2元语言模型计算句子得分概率的公式为：

p(s)＝p(w1)p(w2|w1)···p(w1|w1···wn‑1)

通过计算最大似然估计构造语言模型，其中p(wn|wn‑1)计算公式为：

p(wn|wn‑1)＝count(wn,wn‑1)/count(wn‑1)

count(wn‑1)表示wn‑1在所述词典知识库中出现的次数，wn‑1表示句子中第n‑1个关键词的权重比；

计算2个关键词之间互信息量，计算公式为：

其中，bi表示N3序列中句子第i个关键词，bi‑1表示N3序列中句子第i‑1个关键词，I(bi‑

1bi)为两个连续关键词的互信息量，p(bi|bi‑1)表示关键词bi在bi‑1发生的前提下的得分概率，p(bi)表示关键词bi在句子中的得分概率，p(bi‑1)表示关键词bi‑1在句子中的得分概率；

若I(bi‑1bi)满足互信息阈值α2，则认为关键词bi与关键词bi‑1之间可靠接续，即关键词bi正确。

7.根据权利要求6所述的一种中文语音增强识别及文本纠错矫正方法，其特征在于，在所述步骤S4中，对所述语音文本进行纠错的步骤包括以下内容：S401：判断所述文本输入串中的待查输入串Xi是否为单字：

若为单字，将Xi输入所述N‑gram模型中，判断Xi的句子得分概率是否大于所述词频纠错阈值α1，若小于等于所述词频纠错阈值α1，将Xi标记为错误；若大于所述词频纠错阈值α1，再判断Xi是否存在于所述语义语法数据库中，若存在则Xi正确并输出，若不存在Xi标记为错误；

若Xi不是单字，将Xi输入所述Bigram2模型中计算Xi中关键词的词间互信息量，若关键词互信息量小于等于所述互信息阈值α2，将Xi中该关键词标记为错误；若关键词互信息量大于所述互信息阈值α2，再判断Xi中该关键词是否存在于所述语义语法数据库中，若存在则Xi正确并输出，若不存在将Xi中该关键词标记为错误；

S402：判断标记为错误的Xi中的关键词是否存在于所述纠错候选分词集合，若存在，将Xi中该关键词替换成所述拼音混淆集中的相近组，返回所述步骤S401；若不存在，利用所述词典知识库对Xi中该关键词进行词语相关度计算，所述词语相关度计算公式如下所示：Cword(bm,bn)＝SS(bm,bn)+CC(bn,bk)

其中CC(bm,bk)表示语境相关度，SS(bm,bn)表示语义相关度，bm为Xi中关键词，bn为所述词典知识库中实例词，bk为所述文本输入串中的核心词；

计算CC(bm,bk)是否大于词语相关度阈值α3，若小于等于所述词语相关度阈值α3，将bm作为异常数据舍弃，若大于所述词语相关度阈值α3，对bm进行手动纠错后输出Xi。