利索能及
我要发布
收藏
专利号: 2019104817033
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-05-11
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:包括以下步骤:

S1:微表情数据的预处理:对微表情视频进行欧拉视频放大并抽取图像序列,对图像序列进行人脸定位并裁剪,得到微表情的RGB数据;将欧拉视频放大后的数据提取光流信息,得到微表情的光流图像;

S2:将预处理后的数据分为训练集和测试集两部分并使用迁移学习的方法构建双流卷积神经网络,以学习到微表情的空间与时域信息;步骤S2包括以下步骤:S21:将预处理后的数据与标签,以7:3的比例划分为训练集和测试集两部分,且数据不交叉出现;

S22:双流卷积神经网络由两个卷积神经网络组成,对应空间神经网络与时间神经网络,分别输入RGB图像与光流图像;两个卷积神经网络模型都采用VGG‑16预训练模型构建,所述VGG‑16预训练模型共有16层,有13个卷积层和3个全连接层,具体包含5组卷积集合,如表1,第一组与第二组卷积集合包含2个卷积层,其它均包含3个卷积层,所有卷积层的卷积核大小均为3×3,步长为1,每组卷积集合的最后一个卷积层后连接一个最大池化层,所有的最大池化窗口均为2×2;初始卷积核个数为64,每经过一次最大池化后卷积核的个数增加一倍,包含3个全连接层,第一个和第二个全连接层的维度为4096,第三个全连接层维度为1000,最后由Softmax输出分类结果;

表1

S23:将得到的欧拉放大后的微表情RGB图像输入至空间神经网络,并将得到的光流图像输入至时域神经网络,对时域神经网络的输入进行以下两方面的处理:首先是光流场的叠加,方法是计算每两个连续的帧t和t+1间的光流,然后简单地叠加在一起,假设需要追踪t+1帧,则把光流分解成x,y两个方向的光流,这时有2L个通道,dt(u,v)表示在t帧点(u,v)的位置向量, 和 表示水平和垂直分量的向量场,作为图像通道,为了表示一系列的帧序列,堆叠光流通道 则有2L个通道,用w和h代表一个视频的宽和高;一个卷积网络的输入w×h×2L

量Iτ∈R 对任意一个帧(t)设置如下:其中,u=[1;w],v=[1;h],k=[1;L],对于任意一点(u,v),通道编码L序列帧的所有点;

其次是沿轨迹追踪光流叠加,在连续几帧相同的位置上采样,根据采样结果,得到轨迹的运动信息,Iτ为输入向量,采用以下公式来对应于一个帧t:其中u=[1;w],v=[1;h],k=[1;L]Pk是沿着轨迹的第K层,从(u,v)开始在帧间存在以下递归关系定义:P1=(u,v),Pk=Pk‑1+dτ+k‑2(Pk‑1),k>1;

光流的叠加存储位移向量(u,v),轨迹叠加存储沿着轨迹的光流向量的叠加向量Pk;

S24:使用迁移学习的方法对VGG‑16预训练模型做微调;将前两个全连接层FC的维度由

4096减为2048,以减少模型训练时需要的训练参数从而加快训练速度和降低对计算机性能的要求;由于CASME II数据库的类别为5,所以将最后一个全连接层FC3维度由1000修改为

5;

将处理好的RGB图像和光流图像分别输入VGG‑16预训练模型进行训练,网络的初始学‑5 ‑6

习率设为10 ,经过1000次迭代学习率降低为10 ,共迭代6000次;

S3:将双流卷积神经网络的输出进行最大值融合,以增强识别准确率,得到最终的微表情识别模型;步骤S3包括以下步骤:S31:损失函数用L(Y,f(x))来表示,其中Y表示其真实值,f(x)是模型输出的预测值,目标函数包括损失函数和正则项,用下式表示: 其中第一项是损失函数,第二项是正则化项,采用L2范数,训练求得使目标函数L更小的参数ω,采用自适应矩估计作为优化器;

对于多分类问题,卷积神经网络采用的是交叉熵损失当输入样本被判定为真实类别的概率越大,样本的损失值也就越小;Softmax用于归一化,函数表达式为: 对于分类任务,若数据集共有n类,Softmax的输出就是n维向量,向量中的每一维的值代表输入数据属于某一类的概率值,共n类;Softmax层接在全连接层后,经过Softmax层后得到的输出再输入并最小化损失函数,将误差反向传播来优化网络参数;

a b

S32:将双流卷积神经网络的两个输出进行最大值融合,令x ,x分别为两个卷积神经网络的输出,H,W和D分别代表特征映射的宽度、高度和通道数量;在t时刻,两个卷积网络的输出分别为 使用 来取得两个特征映射的最大值;

S33:在测试阶段,将划分好的测试集中的RGB数据与光流数据分别输入至双流卷积神经网络模型,得到五类微表情的最终的识别结果;

S4:使用微表情识别模型创建虚拟学习环境交互系统,并通过Kinect获取用户面部图像序列进行微表情识别任务。

2.根据权利要求1所述的基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:步骤S1包括以下步骤:S11:选取无限脉冲响应滤波器IIR将微表情数据库CASME II进行欧拉视频放大处理,欧拉视频放大技术首先对输入的视频序列进行空间滤波,再对每个空间频率的基带进行时域滤波处理;令I(x,t)表示位置x和时间t的图像强度,用δ(t)表示相对位移函数F(x);运动放大的目的是合成信号: 其中,α表示放大系数;选取无限脉冲响应滤波器,放大倍数为20,将处理好的视频逐帧抽取图像,得到微表情的图像序列;

S12:使用主动形状模型ASM对处理后的微表情图像进行人脸检测定位,并裁剪成大小为224*224的人脸图像;

S13:将欧拉放大后的微表情图像序列划分为多段,并使用基于总变分TV和L1范数的光流估计方法TV‑L1进行光流分析,得到微表情的光流图像;得到的光流图像数据是和RGB图像尺寸相等的多通道图像,设I(x,y,z)表示时刻t的点(x,y)的图像强度,这个点将在t+Δt时刻移动到(x+Δx,y+Δy),图像强度表示为I(x+Δx,y+Δy,t+Δt),令v=(vx,vy)表示两帧的光流,其中vx和vy是x和y的运动速度分量,则光流的约束方程为:Ixvx+Iyvy+It=0。

3.根据权利要求1所述的基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法,其特征在于:步骤S4包括以下步骤:S41:利用虚拟现实技术在Unity3D平台创建虚拟学习环境,模拟课堂学习环境,对虚拟角色进行建模,并创建交互界面;

S42:使用Kinect实时采集用户面部图像序列,并使用OpenCV库中的Haar‑cascade分类器将已获取的图像进行人脸检测与面部裁剪,再对裁剪之后的图像序列进行欧拉视频放大并保存为RGB图像;并进行光流分析,得到光流帧;

S43:最后将RGB图像与光流图像输入到微表情识别模型中,经前向传播,模型返回微表情分类结果,并在场景中出现相应交互动画。