利索能及
我要发布
收藏
专利号: 2020104849817
申请人: 广东小天才科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-26
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于口型的语音识别方法,其特征在于,包括:

在检测到用户心跳大于第一阈值、且并未检测到用户的音频信息或触控输入信息的情况下,通过摄像头获取关于用户的视频,对所述用户的视频进行分离,得到音频流和视频流,所述音频流为所述用户的音频信息;

使用人脸识别算法跟踪所述视频流中的人脸,并提取所述人脸中的嘴部区域,获取帧唇部动作视频;对所述帧唇部动作视频进行处理,获取唇部图像序列;采用序列切分规则对所述唇部图像序列进行切分,获取切分图像序列;通过唇部图像识别模型对所述唇部图像序列对应的各切分图像序列进行识别,获取切分图像特征;采用分类函数对所述切分图像特征进行分类,获取切分图像识别结果;按照时间顺序对所述切分图像识别结果进行拼接,获取所述用户的口型变化特征;

将所述用户的口型变化特征,输入至预置的所述用户的唇语识别模型中,识别得到所述用户的发音信息;

根据所述发音信息和所述音频信息,确定目标音频信息;

根据所述视频流,确定所述用户的头像图片;

若所述目标音频信息为求助信息,则将所述目标音频信息和所述头像图片向12110发送。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应所述用户的操作,生成发送指令;

根据所述发送指令,将所述目标音频信息向其他电子设备发送。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述发音信息与所述音频信息,进行匹配;

若所述发音信息与所述音频信息的匹配率大于第一阈值,则确定所述用户的唇语模型的测评准确率为优秀;

若所述发音信息与所述音频信息的匹配率小于或等于所述第一阈值,则确定所述用户的唇语模型的测评准确率为一般。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过所述摄像头获取所述用户的多个连续的历史图像,以及通过麦克风获取所述用户的历史音频信息;

根据所述用户的多个连续的历史图像,识别出所述用户的历史口型变化特征;

根据所述历史音频信息和所述历史口型变化特征,进行模型训练,得到所述用户的唇语识别模型。

5.一种终端设备,其特征在于,包括:

获取模块,用于在检测到用户心跳大于第一阈值、且并未检测到用户的音频信息或触控输入信息的情况下,通过摄像头获取关于用户的视频,对所述用户的视频进行分离,得到音频流和视频流,所述音频流为所述用户的音频信息;

处理模块,用于使用人脸识别算法跟踪所述视频流中的人脸,并提取所述人脸中的嘴部区域,获取帧唇部动作视频;对所述帧唇部动作视频进行处理,获取唇部图像序列;采用序列切分规则对所述唇部图像序列进行切分,获取切分图像序列;通过唇部图像识别模型对所述唇部图像序列对应的各切分图像序列进行识别,获取切分图像特征;采用分类函数对所述切分图像特征进行分类,获取切分图像识别结果;按照时间顺序对所述切分图像识别结果进行拼接,获取所述用户的口型变化特征;将所述用户的口型变化特征,输入至预置的所述用户的唇语识别模型中,识别得到所述用户的发音信息;根据所述发音信息和所述音频信息,确定目标音频信息;

所述处理模块,还用于根据所述视频流,确定所述用户的头像图片;

收发模块,用于若所述目标音频信息为求助信息,则将所述目标音频信息和所述头像图片向12110发送。

6.一种终端设备,其特征在于,包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

与所述处理器连接的收发器;

所述收发器、所述处理器调用所述存储器中存储的所述可执行程序代码,分别用于执行如权利要求1‑4中任意一项所述的方法。

7.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1‑4中任意一项所述的方法。