1.一种表情识别方法,包括:
确定待处理视频对应的至少两帧待识别图像,每帧待识别图像中均包含人脸区域;
对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别,得到所述待处理视频对应的第一表情识别结果;
对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果;
确定所述待处理视频对应的待识别音频信息;
基于预设的音频识别模型,提取所述待识别音频信息的音频特征;
根据所述音频特征,得到所述待处理视频对应的第三表情识别结果;
对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果进行融合处理,得到所述待处理视频对应的表情识别结果,所述融合处理为多数投票法。
2.根据权利要求1所述的方法,其中,所述对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别,得到所述待处理视频对应的第一表情识别结果,包括:利用预先训练的离散帧表情识别模型依次对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别,得到所述待处理视频对应的第一表情识别结果;
所述离散帧表情识别模型包括:纹理特征识别模型和/或粒度特征识别模型,所述纹理特征识别模型是利用视频图像样本集对计算机视觉组网络进行训练得到的,所述粒度特征识别模型是利用视频图像样本集对第一神经网络进行训练得到的,所述第一神经网络包括:计算机视觉组网络和双线性模型。
3.根据权利要求1或2所述的方法,其中,所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果,包括:利用预先训练的连续帧表情识别模型依次对所述至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果;
所述连续帧表情识别模型包括:非局部特征识别模型和/或时空特征识别模型,所述非局部特征识别模型是利用视频图像样本集对第二神经网络进行训练得到的,所述第二神经网络包括:计算机视觉组网络、非局部信息模块和门控循环单元,所述时空特征识别模型是利用视频图像样本集对C3D网络进行训练得到的。
4.根据权利要求3所述的方法,其中,在所述对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果之前,所述方法还包括:根据所述至少两帧待识别图像,确定至少一个图像帧序列,其中,每个图像帧序列均具有第一数量的待识别图像,且相邻两个图像帧序列均有第二数量的待识别图像重合,所述第二数量的取值小于第一数量的取值。
5.根据权利要求4所述的方法,其中,所述第一数量等于所述第二数量的2倍。
6.根据权利要求5所述的方法,其中,所述第一数量为16帧,所述第二数量为8帧。
7.根据权利要求1‑6任一项所述的方法,所述确定待处理视频对应的至少两帧待识别图像,包括:对获取到的待处理视频进行拆解,得到至少两帧视频图像和待识别音频信息;
对所述至少两帧视频图像中的每帧视频图像进行图像预处理,得到所述至少两帧待识别图像;
其中,所述图像预处理包括如下至少一种:人脸检测、人脸关键点检测、尺寸处理、归一化处理、增强处理。
8.一种表情识别装置,包括:处理模块、第一识别模块、第二识别模块和融合模块;
所述处理模块,用于确定待处理视频对应的至少两帧待识别图像,每帧待识别图像中均包含人脸区域;
所述第一识别模块,用于对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别,得到所述待处理视频对应的第一表情识别结果;
所述第二识别模块,用于对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果;
所述处理模块,还用于确定所述待处理视频对应的待识别音频信息,基于预设的音频识别模型,提取所述待识别音频信息的音频特征,并根据所述音频特征,得到所述待处理视频对应的第三表情识别结果;
所述融合模块,用于对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果进行融合处理,得到所述待处理视频对应的表情识别结果,所述融合处理为多数投票法。
9.根据权利要求8所述的装置,其中,所述第一识别模块,具体用于利用预先训练的离散帧表情识别模型依次对所述至少两帧待识别图像中的每帧待识别图像进行人脸表情识别,得到所述待处理视频对应的第一表情识别结果;
所述离散帧表情识别模型包括:纹理特征识别模型和/或粒度特征识别模型,所述纹理特征识别模型是利用视频图像样本集对计算机视觉组网络进行训练得到的,所述粒度特征识别模型是利用视频图像样本集对第一神经网络进行训练得到的,所述第一神经网络包括:计算机视觉组网络和双线性模型。
10. 根据权利要求8 所述的装置,其中,所述第二识别模块,具体用于利用预先训练的连续帧表情识别模型依次对所述至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果;
所述连续帧表情识别模型包括:非局部特征识别模型和/或时空特征识别模型,所述非局部特征识别模型是利用视频图像样本集对第二神经网络进行训练得到的,所述第二神经网络包括:计算机视觉组网络、非局部信息模块和门控循环单元,所述时空特征识别模型是利用视频图像样本集对C3D网络进行训练得到的。
11.根据权利要求10所述的装置,其中,所述处理模块,还用于在所述第二识别模块对所述至少两帧待识别图像形成的至少一个图像帧序列进行人脸表情识别,得到所述待处理视频对应的第二表情识别结果之前,根据所述至少两帧待识别图像,确定至少一个图像帧序列,其中,每个图像帧序列均具有第一数量的待识别图像,且相邻两个图像帧序列均有第二数量的待识别图像重合,所述第二数量的取值小于第一数量的取值。
12.根据权利要求8‑11任一项所述的装置,所述处理模块,用于确定待处理视频对应的至少两帧待识别图像,具体为:所述处理模块,具体用于对获取到的待处理视频进行拆解,得到至少两帧视频图像和待识别音频信息,对所述至少两帧视频图像中的每帧视频图像进行图像预处理,得到所述至少两帧待识别图像;
其中,所述图像预处理包括如下至少一种:人脸检测、人脸关键点检测、尺寸处理、归一化处理、增强处理。
13. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑7中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1‑7中任一项所述的方法。
15.一种表情识别方法,包括:
对待处理视频对应的每帧视频图像进行人脸表情识别,得到第一表情识别结果;
对所述待处理视频对应的至少一个图像帧序列进行人脸表情识别,得到第二表情识别结果;
根据所述待处理视频对应的待识别音频信息的音频特征,得到所述待处理视频对应的第三表情识别结果;
基于多数投票法对所述第一表情识别结果、所述第二表情识别结果和所述第三表情识别结果确定所述待处理视频对应的表情识别结果。