利索能及
我要发布
收藏
专利号: 2022105548888
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于运动矢量化和宏观表情引导机制的微表情识别方法,其特征在于:该方法包括以下步骤:步骤一:获取宏观表情和微表情样本的起始帧与顶点帧;

步骤二:对步骤一中获取的起始帧与顶点帧图像进行运动矢量化处理;

步骤三:对微表情样本对应的运动矢量化特征进行非线性放大处理;

步骤四:采用面部运动匹配机制对宏观和微观表情样本进行配对;

步骤五:通过引导网络实现宏观表情对微表情特征提取的引导及强化;

步骤六:根据引导网络的输出情感标签对微表情的类别进行识别;

所述步骤一中,从宏观表情和微表情样本中获取情感起始阶段和情感顶峰阶段的一帧图像;

所述步骤二中,根据步骤一中获取的样本起始帧与顶点帧分别对应着情感初期和情感巅峰期的面部状态;起始帧的面部情感是不具有极性的中性情感,而顶点帧所对应的面部情感则是最丰富的,也即是相对于起始帧面部变化最显著;获取两帧图像中每一个像素点的位移变化;将两帧图像作为输入,通过OpenCv工具包中的calcOpticalFlowFarneback()函数提取两帧图像中每一个像素点的矢量变化,并转化至水平和垂直两个方向即得到两个方向上的运动矢量化特征矩阵(Xij和Yij);

其中,i,j分别表示图像的中每列和每行的像素点个数;

所述步骤三中,在对微表情样本进行运动矢量化处理之后增加非线性放大处理;非线性放大的引入使得面部的显著运动与非显著运动的区分度更加明显;放大函数采用分段指数形式,在对运动强度进行放大的同时并不会改变运动的方向;放大函数中加入的区分度系数λ,当λ=2.5放大效果最佳;

其中,Fx和Fy分别表示放大后的两个方向上的运动矢量化特征,x和y则分别表示运动矢量化特征的像素的原始位移;

所述步骤四中,需要以运动矢量化特征为媒介,找到每一个微表情运动状态最相似的宏表情进行配对;整个匹配过程在本研究中称之为面部运动匹配机制;首先,为获取特征的概率分布,将宏观表情和微表情的运动矢量化特征Fi‑macro和Fi‑micro压缩至1维,得到二者的运动矢量化特征向量;

Vi‑macro=Flatten(Fi‑macro),

Vi‑micro=Flatten(Fi‑micro),

其中,Vi‑macro和Vi‑micro分别表示宏观表情和微表情的运动矢量化特征向量,Flatten(·)表示特征压缩操作;

根据每一个微表情样本的向量分布通过遍历的方式在宏观表情样本中得到一个与之相似度最高的宏观表情样本作为其匹配样本;关于相似度的评价标准在本研究中采用Wasserstein距离来进行评价,相似度的高低转化为距离远近的问题;Wasserstein距离相近则表示相似度高,反之则表示相似度较低;

Dmin=Min(D1j,D2j,D3j,…Dij),

MinSearch(Dmin)→Vmin‑macro,Vmin‑micro其中,

Dij=Wasserstein(Vi‑macro,Vj‑micro),Wasserstein(·)和Min(·)分别表示计算Wasserstein距离操作和获取最小值得操作,Dij表示第i个宏观表情样本和第j个微表情样本所对应的Wasserstein距离,MinSearch(Dmin)则表示反向搜索最小值对应运动矢量化特征向量的过程;

所述步骤五中,将步骤四中获取的宏观表情和微表情样本运动矢量化特征的配对组合作为引导网络的输入;在引导网络中,一维卷积用于特征向量的前后文关系;激活函数的选择为PRelu函数,作为一种负半轴斜率可训练的激活函数,在保留关键的强度信息的同时保留方向信息;

其中,最大池化操作Maxpool(·)用于获取显著特征, 和V分别表示特征提取块的输出特征和输入特征,σ1(·)表示PRelu激活函数,Conv1D(·)表示一维卷积操作;

引导网络中,宏观表情对微表情特征提取过程的引导增强机制是通过引导块实现的;

在引导增强的过程中,宏观表情特征和微观表情特征是分为两个支路分别处理的;在宏观表情输入引导块之后首先会经过绝对值处理;为能够将特征强度转化为权重的形式,使用tanh激活函数将特征强度进行压缩,其压缩后取值范围被控制在了0~1之间;而微表情特征则不经过任何处理,直接与宏观表情的特征权重相乘并得到带有宏观表情特性地微表情矢量特征F;

其中, 和 分别表示输入的宏观表情和微观表情的特征向量,|·|表示绝对值处理,σ2(·)表示tanh激活函数, 则表示特征向量间逐元素相乘操作;

所述步骤六中,步骤五中获取的带有宏观表情特性的微表情特征向量作为引导网络的输入,首先经过全局平均池化操作按照通道维度对特征进行压缩,缓解权值交互时冗余信息带来的干扰;权值交互是通过神经网络权重多层连接的方式实现的,最终经过Softmax函数将特征转化为对应的预测概率 整个过程通过多标签交叉熵函数进行约束;

其中,

MLP(·)=σ3(FC(·)),

FC(·)表示权重多层连接结构,σ3(·)则表示Softmax预测函数;另外,损失函数的表示如下:其中,N表示样本数量,yi和 则分别表示第i个样本的真实情感类别和预测情感类别。