利索能及
我要发布
收藏
专利号: 2018114392853
申请人: 北京蓦然认知科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2024-07-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种离线命令词与云端解析相结合的语音识别方法,其特征在于,所述方法包括:步骤101、接收用户的语音输入;步骤102、对接收到的语音进行识别;步骤103、输出识别结果;

步骤104、根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析;步骤105、根据语义解析结果生成指令;步骤106、执行指令;识别结果还包括语音识别后的文本的长度,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:如果识别结果为文本的长度大于设定值,则将文本进行拆分,部分调用本地命令词库进行解析,部分上传云端进行解析,云端解析完成后回传本地,在本地对两部分解析结果进行合成并输出控制指令。

2.根据权利要求1所述的语音识别方法,其特征在于:识别结果包括用户的属性信息。

3.根据权利要求2所述的语音识别方法,其特征在于:用户的属性信息指用户是特定用户,还是非特定用户。

4.根据权利要求3所述的语音识别方法,其特征在于:特定用户包括家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户之一;非特定用户包括访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户之一。

5.根据权利要求1所述的语音识别方法,其特征在于:根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果用户属于特定用户,则调用本地命令词库进行解析,如果用户属于非特定用户,则将识别后的文本发送到云端进行解析。

6.根据权利要求5所述的语音识别方法,其特征在于:特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。

7.根据权利要求6所述的语音识别方法,其特征在于:如果用户属于特定用户,则调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。

8.根据权利要求6所述的语音识别方法,其特征在于:如果用户属于非特定用户,则允许非特定用户被授权构建3D用户画像,非特定用户被授权构建3D用户画像后,可以根据3D用户画像调用相应的本地命令词库进行解析。

9.根据权利要求7或8所述的语音识别方法,其特征在于:3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的至少之一,3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。

10.根据权利要求1所述的语音识别方法,其特征在于:如果调用本地命令词库进行解析时出现无法进行解析的命令词,则将该无法解析的命令词及其邻近的上下文信息上传云端进行解析,解析完成后回传本地,在本地将云端回传的解析结果和本地解析结果进行合并后输出控制指令。

11.根据权利要求10所述的语音识别方法,其特征在于:在拆分处,或在无法解析的命令词的上文和下文处插入标记,所述在本地对两部分解析结果进行合并时根据插入的标记位进行合并。

12.根据权利要求11所述的语音识别方法,其特征在于:判断用户是否特定用户,如果用户属于特定用户,则将所述无法解析的命令词的解析结果加入到对应的本地命令词库中。

13.根据权利要求1所述的语音识别方法,其特征在于:识别结果为语音识别中评估的难度级别,根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为:难度级别大于等于预定值一时,进行云端解析,小于等于预定值二时调用本地命令词库进行解析;难度级别处于预定值一和预定值二之间时,采用本地命令词库和云端解析相结合的方式。

14.根据权利要求1所述的语音识别方法,其特征在于:识别结果包括语音输入的控制对象信息;根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。

15.根据权利要求14所述的语音识别方法,其特征在于:控制对象信息包括,控制对象是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为:如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。

16.根据权利要求15所述的语音识别方法,其特征在于:如果控制对象是本地应用,则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。

17.根据权利要求1所述的语音识别方法,其特征在于:识别结果为语义识别后的文本中是否包含特定词,根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。

18.根据权利要求17所述的语音识别方法,其特征在于:所述特定词的位置在文本后n位,n为设定的自然数。

19.根据权利要求17所述的语音识别方法,其特征在于:所述特定词的位置在文本的任意位置。

20.一种离线命令词与云端解析相结合的语音识别装置,其特征在于:所述语音识别装置包括输入模块11,语音识别模块21,判断模块31,解析模块41,所述输入模块11,用于接收用户的语音输入并将该语音输入发送到语音识别模块21;所述语音识别模块21与所述输入模块11相连,对从所述语音输入模块11接收的语音进行识别,生成文本信息和识别结果,并将所述文本信息和识别结果发送给所述判断模块31;所述判断模块31根据所述语音识别模块21的识别结果,将文本信息发送给所述解析模块41和/或将识别后的文本发送到云端;所述解析模块41用于调用相应的本地命令词库进行语义解析,生成控制指令,并将所述控制指令发送给控制对象执行;所述语音识别装置的所述解析模块41还包括标记模块421和合并模块422,识别结果还包括语音识别后的文本的长度,如果识别结果为文本的长度大于设定值,则所述标记模块421将文本进行拆分,部分调用本地命令词库进行解析,部分上传云端进行解析,云端解析完成后回传本地,所述合并模块422在本地对两部分解析结果进行合成以输出控制指令。

21.根据权利要求20所述的语音识别装置,其特征在于:所述语音识别模块21包括语音鉴定模块211、文本生成模块221和文本鉴定模块231,所述语音鉴定模块211用于识别语音输入信息的特性;所述文本生成模块221用于将用户输入的语音信息转换为文本信息;所述文本鉴定模块231用于识别文本相关的特征信息。

22.根据权利要求21所述的语音识别装置,其特征在于:所述语音输入信息的特性包括下列至少之一:声纹特征、语速、频率、时长、情绪、语音识别的难易度信息;所述文本相关的特征信息包括下列至少之一:文本长度、特定字符、语义解析难易度。

23.根据权利要求20所述的语音识别装置,其特征在于:所述解析模块41包括语义解析模块411和指令生成模块431,所述语义解析模块411用于对文本进行语义解析,所述指令生成模块431用于根据语义解析结果生成并输出操作指令,以使操作对象执行所述指令。

24.根据权利要求20所述的语音识别装置,其特征在于:所述云端解析由云解析服务器

2执行;所述标记模块421用于在需要进行拆分的文本处生成并插入拆分标记位,所述合并模块422用于将本地语义解析的结果和云解析服务器2返回的语义解析结果根据所述标记模块421生成的拆分标记位进行合并。

25.根据权利要求20所述的语音识别装置,其特征在于:所述判断模块31根据识别结果,将文本信息发送给所述解析模块41以调用本地命令词库进行本地解析。

26.根据权利要求20所述的语音识别装置,其特征在于:所述判断模块31根据识别结果,将文本信息发送给云解析服务器进行云端语义解析。

27.根据权利要求25或26所述的语音识别装置,其特征在于:所述识别结果包括用户的属性信息。

28.根据权利要求27所述的语音识别装置,其特征在于:用户的属性信息指用户是特定用户,还是非特定用户。

29.根据权利要求28所述的语音识别装置,其特征在于:所述特定用户包括家庭成员,办公室成员,授权用户,使用频次较高的用户,本地联系人列表中存储的用户,临时建立的群中的用户之一;所述非特定用户包括访客,非授权用户,使用频次低的用户,未存储在本地联系人列表中的用户之一。

30.根据权利要求29所述的语音识别装置,其特征在于:所述判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果用户属于特定用户,则调用本地命令词库进行解析,如果用户属于非特定用户,则将识别后的文本发送到云端进行解析。

31.根据权利要求30所述的语音识别装置,其特征在于:特定用户的本地命令词库包含的关键词多于非特定用户的本地命令词库;或者特定用户能够调用本地命令词,而非特定用户仅能进行云端解析;或者特定用户能够调用与自身的权限级别相适应的本地命令词库集合,用户的权限级别越高能够调用的本地命令词库集合包含的本地命令词越多,或包含的本地命令词库的级别越高。

32.根据权利要求31所述的语音识别装置,其特征在于:如果用户属于特定用户,则进一步包括,调用本地存储的3D用户画像,根据3D用户画像调用相应的本地命令词库进行解析。

33.根据权利要求32所述的语音识别装置,其特征在于:3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个;3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。

34.根据权利要求33所述的语音识别装置,其特征在于:如果用户属于非特定用户,则进一步包括,允许非特定用户被授权构建3D用户画像,3D用户画像包括用户的基本信息、行为属性、社会关系、心理特征、兴趣爱好中的一个或多个;3D用户画像由用户自行输入,或根据用户的数据叠加、抽象形成。

35.根据权利要求34所述的语音识别装置,其特征在于:非特定用户被授权构建3D用户画像后,可以根据3D用户画像调用相应的本地命令词库进行解析。

36.根据权利要求35所述的语音识别装置,其特征在于:所述解析模块41如果识别出现无法进行本地语义解析的命令词,则将该无法解析的命令词及其邻近的上下文信息上传至云解析服务器进行解析,解析完成后回传本地,在本地将云端回传的解析结果和本地解析结果进行合并,由所述指令生成模块431生成控制指令并输出。

37.根据权利要求36所述的语音识别装置,其特征在于:当需要进行拆分时,所述标记模块421在拆分处,或在无法解析的命令词的上文和下文处插入标记,并将标记信息发送给所述合并模块422,所述合并模块422在本地对两部分解析结果进行合并时根据插入的标记位进行合并。

38.根据权利要求37所述的语音识别装置,其特征在于:判断用户是否特定用户,如果用户属于特定用户,则将所述无法解析的命令词的解析结果加入到对应的本地命令词库中。

39.根据权利要求25或26所述的语音识别装置,其特征在于:识别结果为语音识别中评估的难度级别,所述判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析为,难度级别大于等于预定值一时,进行云端解析,小于等于预定值二时调用本地命令词库进行解析;难度级别处于预定值一和预定值二之间时,采用本地命令词库和云端解析相结合的方式。

40.根据权利要求39所述的语音识别装置,其特征在于:识别结果包括语音输入的控制对象信息;所述判断模块31根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,根据语音输入的控制对象调用本地命令词库和/或将识别后的文本发送到云端进行语义解析。

41.根据权利要求40所述的语音识别装置,其特征在于:所述控制对象信息进一步包括,控制对象是网络应用还是本地应用,根据识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析具体为,如果控制对象是网络应用,则将识别后的文本发送到云端进行解析;如果控制对象是本地应用,则调用本地命令词库对语音识别后的文本进行语义解析。

42.根据权利要求41所述的语音识别装置,其特征在于:如果控制对象是本地应用,则调用该控制对象的专属命令词库对语音识别后的文本进行语义解析。

43.根据权利要求25或26所述的语音识别装置,其特征在于:识别结果为语义识别后的文本中是否包含特定词,所述判断模块31根据用户的识别结果调用本地命令词库和/或将识别后的文本发送到云端进行语义解析进一步包括,如果识别结果包含特定词,则调用对应的本地命令词库进行解析,如果识别结果不包含特定词,则将识别后的文本发送到云端进行解析。

44.根据权利要求43所述的语音识别装置,其特征在于:所述特定词的位置在文本后n位,n为设定的自然数。

45.根据权利要求43所述的语音识别装置,其特征在于:所述特定词的位置在文本的任意位置。

46.一种离线命令词与云端解析相结合的语音识别系统,其特征在于:包括云解析服务器和如权利要求20-45任一项所述的语音识别装置。

47.一种语音识别终端,其特征在于:所述语音识别终端包括权利要求20-45任一项所述的语音识别装置。

48.一种语音识别终端,其特征在于:所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序能够实现如权利要求1-19任一项所述的方法。

49.一种计算机可读介质,所述计算机可读介质存储有程序,当所述程序被执行时,能够实现如权利要求1-19任一项所述的离线命令词与云端解析相结合的语音识别方法。