1.一种语音识别方法,其特征在于,所述语音识别方法包括:获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;
对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;
对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;
根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;
针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;
对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;
将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。
2.如权利要求1所述的语音识别方法,其特征在于,所述使用静音检测算法将所述语音数据切分为语音段,包括:对所述语音数据进行预处理,得到音频数据,其中,所述音频数据包含n个采样点的采样值,n为正整数;
按照预设的帧长和预设的步长对所述音频数据进行分帧处理,得到K帧语音帧,其中,K为正整数;
根据所述采样值计算每帧所述语音帧的帧能量;
针对每帧所述语音帧,若该语音帧的帧能量小于预设的帧能量阈值,则标记该语音帧为静音帧;
若检测到连续的静音帧的数量大于预设的静音帧数量阈值,则标记该连续的静音帧为静音段;
根据所述静音段确定所述语音数据的切分帧,并使用所述切分帧对所述语音数据进行切分,得到所述语音段。
3.如权利要求1所述的语音识别方法,其特征在于,所述对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号,包括:根据预设的标点符号,对所述原文文本按照语句进行切分,得到切分语句;
对每个所述切分语句进行遍历,若该切分语句包含非中文字符串,则将所述非中文字符串转换为中文,得到所述标准语句,并为每个所述标准语句分配所述标准序号。
4.如权利要求1所述的语音识别方法,其特征在于,所述针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,包括:将第一句所述标准语句设置为匹配起点,并根据所述匹配起点确定匹配范围;
按照所述转换语句的转换序号的顺序,将每个所述待匹配字符串与所述匹配范围内的标准语句进行匹配,若在所述匹配范围内的标准语句中匹配到与该待匹配字符串一致的内容,则确认匹配成功,否则确认匹配失败;
若匹配成功,则将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中,并以该匹配成功的标准语句作为下一个待匹配字符串的匹配起点;
若匹配失败,则使用下一个待匹配字符串与所述匹配范围内的标准语句进行匹配,直至全部待匹配字符串匹配完为止。
5.如权利要求1所述的语音识别方法,其特征在于,所述对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句,包括:对每个所述变量存储空间中的标准序号进行去重处理,若该变量存储空间中存在至少两个相同的所述标准序号,则保留其中任意一个标准序号,删除其余的标准序号;
若所有的所述变量存储空间中的标准序号之间不连续或者存在重复,则将不连续的标准序号所在的变量存储空间,或者重复的标准序号所在的变量存储空间作为待纠正空间;
若所述变量存储空间为空,则将该变量存储空间及其相邻的两个变量存储空间作为所述待纠正空间;
根据所述待纠正空间及其包含的标准序号,确定转换错误的语音段和该语音段对应的标准语句。
6.一种语音识别装置,其特征在于,所述语音识别装置包括:语音切分模块,用于获取用户根据原文文本输入的语音数据,并使用静音检测算法将所述语音数据切分为语音段;
语音识别模块,用于对每个所述语音段进行识别转换处理,得到转换语句和每个所述转换语句的转换序号,并为每个所述转换语句创建对应的变量存储空间;
文本处理模块,用于对所述原文文本进行预处理,得到标准语句和每个所述标准语句的标准序号;
语句分割模块,用于根据所述标准语句确定切分长度,并按照所述切分长度对每个所述转换语句进行字符串切分,得到待匹配字符串;
文本匹配模块,用于针对每个所述待匹配字符串,使用该待匹配字符串与所述标准语句进行匹配,并将匹配成功的标准语句的标准序号,存储到该待匹配字符串所在的转换语句对应的变量存储空间中;
分析处理模块,用于对所述变量存储空间中的标准序号进行分析处理,得到转换错误的语音段和该语音段对应的标准语句;
纠错处理模块,用于将所述转换错误的语音段及其对应的标准语句存储到语音库作为数据集,并基于所述数据集对语音识别模型进行训练,以通过训练后的语音识别模型对检测到多音字或同类型口音的语音数据进行纠错。
7.如权利要求6所述的语音识别装置,其特征在于,所述语音切分模块包括:语音数据处理单元,用于对所述语音数据进行预处理,得到音频数据,其中,所述音频数据包含n个采样点的采样值,n为正整数;
音频数据分帧单元,用于按照预设的帧长和预设的步长对所述音频数据进行分帧处理,得到K帧语音帧,其中,K为正整数;
帧能量计算单元,用于根据所述采样值计算每帧所述语音帧的帧能量;
静音帧标记单元,用于针对每帧所述语音帧,若该语音帧的帧能量小于预设的帧能量阈值,则标记该语音帧为静音帧;
静音段标记单元,用于若检测到连续的静音帧的数量大于预设的静音帧数量阈值,则标记该连续的静音帧为静音段;
语音段获取单元,用于根据所述静音段确定所述语音数据的切分帧,并使用所述切分帧对所述语音数据进行切分,得到所述语音段。
8.如权利要求6所述的语音识别装置,其特征在于,所述文本处理模块包括:文本切分单元,用于根据预设的标点符号,对所述原文文本按照语句进行切分,得到切分语句;
文本转换单元,用于对每个所述切分语句进行遍历,若该切分语句包含非中文字符串,则将所述非中文字符串转换为中文,得到所述标准语句,并为每个所述标准语句分配所述标准序号。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至
5任一项所述语音识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音识别方法的步骤。