利索能及
我要发布
收藏
专利号: 2023100727903
申请人: 天创光电工程有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音输入方法,其特征在于,包括:

在接收到第一语音输入指令时,获取用户输入的第一待识别语音,并提取所述第一待识别语音中的第一语音特征信息,其中,所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息;

根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数,并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容;

在接收到第二语音输入指令时,获取用户输入的第二待识别语音,并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数;

若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数,则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容,其中,所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容;

若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容,则基于所述第二语音内容对所述第一语音内容进行更新,并输出更新后的第一语音内容。

2.根据权利要求1所述的一种语音输入方法,其特征在于,在根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数之前,所述方法还包括:判断所述第一待识别语音中是否存在无义语音段,其中,所述无义语音段包括空白语音段和拖长音语音段;

若所述第一待识别语音中存在无义语音段,则基于所述无义语音段的起始时间和终止时间去除所述第一待识别语音中的所述无义语音段,并重新拼接成仅包含有义语音段的第一目标待识别语音;

获取所述第一目标待识别语音中的第一语速信息和第一目标待识别语音的所述语音时长。

3.根据权利要求1所述的一种语音输入方法,其特征在于,所述基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容,包括:基于不同字符数的训练语音以及与所述训练语音相对应的训练语音内容对神经网络模型进行训练,得到至少一个语音识别模型,其中,一个语音识别模型用于识别字符数在一字符数范围的训练语音;

根据所述第一待识别语音的字符数选取与所述字符数相对应的某一语音识别模型;

根据所述某一语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容。

4.根据权利要求1所述的一种语音输入方法,其特征在于,在所述判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之前,所述方法还包括:判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同;

若所述第二待识别语音中的第二声纹信息与所述第一声纹信息相同,则基于所述第一语速信息以及所述第二待识别语音的语音时长得到所述第二待识别语音的字符数。

5.根据权利要求4所述的一种语音输入方法,其特征在于,在判断所述第二待识别语音中的第二声纹信息是否与所述第一声纹信息相同,之后,所述方法还包括:若所述第二待识别语音中的第二声纹信息与所述第一声纹信息不相同,则直接输出与所述第一待识别语音相对应的第一语音内容。

6.根据权利要求1所述的一种语音输入方法,其特征在于,在判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数之后,所述方法还包括:若所述第二待识别语音的字符数大于所述第一待识别语音的字符数,则直接输出与所述第一待识别语音相对应的第一语音内容。

7.一种语音输入系统,其特征在于,包括:

获取模块,配置为在接收到第一语音输入指令时,获取用户输入的第一待识别语音,并提取所述第一待识别语音中的第一语音特征信息,其中,所述第一语音特征信息中包含第一声纹信息以及与所述第一声纹信息相对应的第一语速信息;

分析模块,配置为根据所述第一语速信息以及语音时长得到所述第一待识别语音的字符数,并基于与所述字符数相关联的预先训练的语音识别模型对所述第一待识别语音进行分析,得到与所述第一待识别语音相对应的第一语音内容;

第一判断模块,配置为在接收到第二语音输入指令时,获取用户输入的第二待识别语音,并判断所述第二待识别语音的字符数是否大于所述第一待识别语音的字符数;

第二判断模块,配置为若所述第二待识别语音的字符数不大于所述第一待识别语音的字符数,则判断与所述第二待识别语音相对应的第二语音内容是否为所述第一语音内容的子语音内容,其中,所述第一语音内容的子语音内容为第一个字符和最后一个字符均存在于所述第一语音内容中的语音内容和/或与所述第一语音内容中字符相同的字符数量大于预设阈值的语音内容;

更新模块,配置为若与所述第二待识别语音相对应的所述第二语音内容为所述第一语音内容的子语音内容,则基于所述第二语音内容对所述第一语音内容进行更新,并输出更新后的第一语音内容。

8.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述的方法。