利索能及
我要发布
收藏
专利号: 2017105379215
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,包括:多通道并行卷积神经网络模型的构建步骤,以及实时表情识别两个步骤:所述多通道并行卷积神经网络模型的构建步骤包括:步骤1:从面部表情数据集中提取人脸表情图像,所述人脸表情图像包含彩色图像和深度图像;

步骤2:对人脸表情图像的彩色图像和深度图像进行预处理操作,将预处理后的深度图像与彩色图像分别分为训练集和测试集两部分并构建多通道并行卷积神经网络,所述多通道并行卷积神经网络包括第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络;

步骤3:进行深度学习得到学习了面部表情立体分布特征的深度通道识别模型、学习了面部表情轮廓特征的LBP通道识别模型、学习了面部表情关键点分布的关键点通道识别模型;

所述实时表情识别的步骤包括:

步骤4:将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型;

步骤5:采用最终表情识别模型构建实时表情识别系统,实时获取用户图片进行表情分类;

所述采用最大置信进行融合,包括:

1),统计深度图像通道的7种基本表情的概率PCDepth(i),基本表情分别为生气、厌恶、害怕、开心、中性、悲伤和惊讶:PCDepth(i)==w1*CDepth(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,

4,5,6,7;

2),统计LBP图像通道的7种基本表情的概率PLCRGB(i):

PLCRGB(i)=w2*LCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,

6,7;

3),统计关键点图像通道的7种基本表情的概率PKCRGB(i):

PKCRGB(i)=w3*KCRGB(i)/(w1*CDepth(i)+w2*LCRGB(i)+w3*KCRGB(i)),i=1,2,3,4,5,

6,7;

4),对比1)、2)、3)中统计结果的大小,具有较高置信度的即为最终表情分类结果:Result=max{PCDepth(i),PLCRGB(i),PKCRGB(i)},i=1,2,3,4,5,6,7;

其中,w1是深度图像通道分类输出的权值,w2是LBP图像通道分类输出的权值,w3是关键点图像通道分类输出的权值。

2.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤3具体包括步骤:将训练集中经过梯度化预处理的深度图像数据送入第一路卷积神经网络中进行训练以提取面部立体分布特征,得到学习了面部表情立体分布特征的深度通道识别模型;

将训练集中经过局部二值化预处理的彩色图像数据送入第二路卷积神经网络中进行训练以提取面部轮廓特征,得到学习了面部表情轮廓特征的LBP通道识别模型;

将训练集中经过提取面部关键点的彩色图像数据送入第三路卷积神经网络中进行训练以提取面部关键点分布特征,得到学习了面部表情关键点分布的关键点通道识别模型。

3.根据权利要求1所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,步骤2面部表情数据集图像的预处理操作,包括:将面部表情数据集中的原始像素为256×256的所有表情以中心点为基准裁剪128×

128图像区域,面部表情主要由面部肌肉轮廓组合而成,对彩色图像采用局部二值化方法来提取面部轮廓特征,采用提取关键点分布的方式获取面部几何分布特征,对深度图像采用去除背景及梯度化处理。

4.根据权利要求3所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤2的第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络分别为:深度图像通道、LBP图像通道与关键点通道,分别对不同输入下的面部表情特征进行提取,每个单路卷积神经网络的结构相同,包括5个卷积层,3个全连接层,最后为softmax层,具体如下:第1层为卷积一层,有96个卷积核,大小为7×7×96;第2层为最大池化层,大小为3×3;

第3层为卷积二层,有256个卷积核,大小为5×5×256;第4层为最大池化层,大小为2×2;第

5层为卷积三层,有512个卷积核,大小为3×3×512;第6层为卷积四层,有512个卷积核,大小为3×3×512;第7层为卷积五层,有512个卷积核,大小为3×3×512;第8层为最大池化层,大小为3×3;后面三层为全连接层,分别为FC6,FC7,FC8。

5.根据权利要求4所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述第一路卷积神经网络、第二路卷积神经网络及第三路卷积神经网络采用深度学习框架caffe实现,通过深度学习中finetune的方式对每个单路卷积神经网络进行训练以获取网络识别模型,包含网络参数初始化和训练参数设置;在网络参数初始化时,采用模型的前8层网络权值参数进行参数初始化,后三层全连接层的参数则采用随机初始化的方式;

关于训练参数设置,网络训练时,由实际输出与样本期望输出计算而得的损失函数将不断更新网络权值参数。

6.根据权利要求5所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述步骤4将深度通道、LBP通道与关键点通道识别模型的分类结果采用最大置信相融合,获取最终表情识别模型,具体包括:通过最大置信融合深度通道、LBP通道与关键点通道识别模型的分类结果,对三者分配不同的权重之后求置信度,置信度最大值对应的分类结果即为最终输出的表情识别结果。

7.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,获得最终表情识别模型后,加载模型及相关的配置文件构建实时的表情识别系统,用深度相机实时采集用户图像,采用opencv中的Haar-Cascade进行面部区域检测及裁剪,之后对裁剪后的面部彩色图像进行lbp预处理和获取面部关键点及对深度图像进行梯度化预处理,送入最终表情识别模型之中,经前向传播,模型将实时返回表情分类结果。

8.根据权利要求6所述的基于多通道并行卷积神经网络的实时表情识别方法,其特征在于,所述面部表情数据集还包括设置感兴趣区域得到训练数据,包括:采用图像处理中的裁剪、镜像、遮罩、中心聚焦方式,先进行人脸检测提取人脸,保留头部区域,让鼻尖近似处于图像中心位置,确保不同面部的ROI区域不出现大的偏差;裁剪方式重点关注眼、鼻、嘴在不同表情中的区别,镜像方式考虑了拍摄角度的不同,遮罩方式是对裁剪方式的补充。