利索能及
我要发布
收藏
专利号: 2021107392723
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种语音播报方法,其特征在于,所述语音播报方法包括:获取请求用户的用户音频,并获取与所述请求用户及所述用户音频对应的人脸图像;

获取情绪识别模型,所述情绪识别模型包括语音提取网络、图像提取网络、注意力网络及分类网络;

基于所述语音提取网络对所述用户音频进行特征提取,得到语音特征,并基于所述图像提取网络对所述人脸图像进行特征提取,得到图像特征;

基于所述图像特征及所述注意力网络对所述语音特征进行注意力分析,得到所述语音特征的语音关注特征,并基于所述语音特征及所述注意力网络对所述图像特征进行注意力分析,得到所述图像特征的图像关注特征;

基于所述分类网络对所述语音关注特征及所述图像关注特征进行分析,得到所述请求用户的用户情绪,并根据所述请求用户的用户事件及所述用户情绪获取推荐信息;

在显示屏幕中显示所述推荐信息,并采集所述请求用户的多张眼部图像;

根据所述多张眼部图像定位所述请求用户的眼球转动角度;

根据所述眼球转动角度及所述推荐信息在所述显示屏幕中的位置定位出目标信息,并播报所述目标信息。

2.如权利要求1所述的语音播报方法,其特征在于,所述基于所述语音提取网络对所述用户音频进行特征提取,得到语音特征包括:对所述用户音频进行预处理,得到所述用户音频的梅谱信息;

根据所述梅谱信息生成输入矩阵;

基于所述语音提取网络分析所述输入矩阵,得到所述语音特征。

3.如权利要求1所述的语音播报方法,其特征在于,所述图像提取网络包括多个卷积层,所述基于所述图像提取网络对所述人脸图像进行特征提取,得到图像特征包括:获取所述人脸图像在预设颜色模式下的像素信息;

根据所述像素信息生成所述人脸图像的图像矩阵;

从所述图像提取网络中获取每个卷积层的卷积序号;

对于所述多个卷积层中的任意卷积层,获取所述任意卷积层的第一序号,并获取所述卷积序号大于所述第一序号及与所述任意卷积层相邻的卷积层作为目标卷积层;

获取所述任意卷积层的输出矩阵,并将所述输出矩阵及所述图像矩阵输入至所述目标卷积层,直至所述图像提取网络中所有卷积层均参与处理,得到所述图像特征。

4.如权利要求1所述的语音播报方法,其特征在于,所述基于所述图像特征及所述注意力网络对所述语音特征进行注意力分析,得到所述语音特征的语音关注特征包括:获取所述注意力网络的网络参数,并根据所述网络参数对所述语音特征进行处理,得到与所述语音特征对应的第一输出信息;

获取所述语音特征的特征维度;

计算所述图像特征与所述第一输出信息的乘积,得到运算结果,并计算所述运算结果中每个元素在所述特征维度的占比,得到第二输出信息;

计算所述第一输出信息与所述第二输出信息的乘积,得到第三输出信息;

计算所述语音特征中第一元素与所述第三输出信息中相应元素位置上第二元素的总和,得到所述语音关注特征。

5.如权利要求1所述的语音播报方法,其特征在于,所述基于所述分类网络对所述语音关注特征及所述图像关注特征进行分析,得到所述请求用户的用户情绪包括:拼接所述语音关注特征及所述图像关注特征,得到目标特征;

获取所述分类网络的权值矩阵及偏置向量;

计算所述目标特征与所述权值矩阵的乘积,得到运算向量,并计算所述运算向量与所述偏置向量的总和,得到分数向量;

对所述分类向量进行归一化处理,得到概率向量,并将所述概率向量中取值最大的维度所对应的情绪确定为所述用户情绪。

6.如权利要求1所述的语音播报方法,其特征在于,所述根据所述多张眼部图像定位所述请求用户的眼球转动角度包括:获取每张眼部图像的图像生成时间及瞳孔中心坐标;

根据下列公式计算每两个相邻图像生成时间的初始转动角度:其中,θ为所述初始转动角度,(xt,yt)是指所述图像生成时间为第一时刻所对应的瞳孔中心坐标,(xt+1,yt+1)是指所述图像生成时间为第二时刻所对应的瞳孔中心坐标;

计算所述初始转动角度的平均值,得到所述眼球转动角度。

7.如权利要求1所述的语音播报方法,其特征在于,所述根据所述眼球转动角度及所述推荐信息在所述显示屏幕中的位置定位出目标信息包括:获取所述请求用户的眼球处于平视状态时与所述显示屏幕所在的水平面的交点作为原点,并基于所述原点构建坐标系;

计算所述显示屏幕中每个屏幕边缘线到所述原点的距离,得到边缘距离,并将所述边缘距离最小的屏幕边缘线确定为目标边缘线;

基于所述原点确定所述目标边缘线的垂直边;

根据下列公式定位所述请求用户在第二时刻的第二眼球位置:x1=x0‑h×sin(a+b);

y1=y0+h×cos(a+b);

y0=x0×tana;

其中,(x1,y1)为所述第二眼球位置,(x0,y0)是指所述请求用户在第一时刻的第一眼球位置,h是指所述请求用户的眼球到所述显示屏幕的垂直高度,a是指所述垂直边与所述请求用户的眼球形成的角度,b是指所述眼球转动角度;

确定所述推荐信息在所述坐标系中的信息位置;

将所述目标坐标与所述信息位置进行比较,并将与所述目标坐标相同的信息位置所对应的推荐信息确定为所述目标信息。

8.一种语音播报装置,其特征在于,所述语音播报装置包括:获取单元,用于获取请求用户的用户音频,并获取与所述请求用户及所述用户音频对应的人脸图像;

所述获取单元,用于获取情绪识别模型,所述情绪识别模型包括语音提取网络、图像提取网络、注意力网络及分类网络;

提取单元,用于基于所述语音提取网络对所述用户音频进行特征提取,得到语音特征,并基于所述图像提取网络对所述人脸图像进行特征提取,得到图像特征;

分析单元,用于基于所述图像特征及所述注意力网络对所述语音特征进行注意力分析,得到所述语音特征的语音关注特征,并基于所述语音特征及所述注意力网络对所述图像特征进行注意力分析,得到所述图像特征的图像关注特征;

所述分析单元,还用于基于所述分类网络对所述语音关注特征及所述图像关注特征进行分析,得到所述请求用户的用户情绪,并根据所述请求用户的用户事件及所述用户情绪获取推荐信息;

采集单元,用于在显示屏幕中显示所述推荐信息,并采集所述请求用户的多张眼部图像;

定位单元,用于根据所述多张眼部图像定位所述请求用户的眼球转动角度;

播报单元,用于根据所述眼球转动角度及所述推荐信息在所述显示屏幕中的位置定位出目标信息,并播报所述目标信息。

9.一种电子设备,其特征在于,所述电子设备包括:存储器,存储有计算机可读指令;及处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至7中任意一项所述的语音播报方法。

10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至7中任意一项所述的语音播报方法。