1.一种多流注意力交互的面部表情识别方法,其特征在于,包括如下步骤:步骤1.获取面部图像数据,并调整至预设大小;
步骤2.搭建基于多流注意力交互的面部表情识别模型,其包括多分支神经网络模块、全局特征交互模块、通道交互模块、以及动态标签调整模块;
多分支神经网络模块用于对获取的面部图像数据进行特征提取,包括使用主干网络提取面部特征,以及使用人脸关键点检测器提取面部关键点特征;
全局特征交互模块用于对提取的特征进行全局信息融合;其中,提取的面部特征、以及面部关键点特征分别经过线性变换,映射为查询向量、键向量以及值向量;
查询向量在提取的面部特征以及面部关键点特征之间进行交换,得到双分支特征;
通道交互模块用于对所述双分支特征进行通道层面信息融合,得到最终特征;
首先将全局特征交互模块输出的双分支特征,即面部特征以及面部关键点特征,进行拼接操作,以此实现特征的初步融合,生成拼接后的特征Fc;
紧接着,引入一个多层感知机层MLP,多层感知机层MLP与softmax函数相结合,共同构成一个学习机制,用于学习并生成权重向量wa,wb:[wa,wb]=softmax(MLP(Fc));
其中,wa和wb则是融合机制学习得到的通道自适应权值,wa为面部特征的通道自适应权值,wb为面部关键点特征的通道自适应权值;
运用设计的两个通道自适应权值,对相应的特征进行融合处理,这一融合过程的输出结果即为最终特征Ffuse,其计算公式如下所示:Ffuse=wa*f1+wb*f2;
其中,f1和f2分别代表输入全局特征交互模块的特征一及特征二,即主干网络提取的面部特征以及使用人脸关键点检测器提取面部关键点特征;
动态标签调整模块用于对最终特征重加权并对噪声标签进行更新;
通过对最终的特征图进行全连接和softmax归一化操作,得到表情类别概率并输出;
步骤3.利用步骤1获取的面部图像数据,对步骤2中搭建的基于多流注意力交互的面部表情识别模型进行训练,并利用训练好的面部表情识别模型,进行面部表情识别。
2.根据权利要求1所述的多流注意力交互的面部表情识别方法,其特征在于,所述主干网络采用ResNet网络,人脸关键点检测器采用预训练的人脸关键点检测器。
3.根据权利要求1所述的多流注意力交互的面部表情识别方法,其特征在于,所述全局特征交互模块的处理过程如下:首先将主干网络提取面部特征以及使用人脸关键点检测器提取面部关键点特征输入全局特征交互模块,且分别定义为输入特征一以及输入特征二;
输入特征一、输入特征二分别经过线性变换,映射为查询向量、键向量以及值向量;
定义输入特征一经过线性变换映射的查询向量、键向量以及值向量分别为Qa、Ka和Va,输入特征二经过线性变换映射的查询向量、键向量以及值向量分别为Qb、Kb和Vb;
紧接着利用查询向量、键向量以及值向量三元组,对每个处理分支特征映射中任意两个位置之间的关系进行编码,以此深度挖掘并捕捉全局上下文信息;
对于输入特征一所在的处理分支,键向量以及值向量分别采用Ka和Va,而查询向量则采用来自输入特征二所在的处理分支经过线性变换得到的查询向量Qb;
对于输入特征二所在的处理分支,键向量以及值向量分别采用Kb和Vb,而查询向量则采用来自输入特征一所在的处理分支经过线性变换得到的查询向量Qa;
对于输入特征一、输入特征二所在的处理分支,得到的处理结果分别为特征图Za、Zb;
其中a为面部特征,b为面部关键点特征, 是归一化的比例因子,d表示嵌入维度;
最后分别通过一个1×1卷积层将特征图Za、Zb的通道维度均恢复到初始通道维数。
4.根据权利要求1所述的多流注意力交互的面部表情识别方法,其特征在于,所述步骤1中,获取面部图像数据,对面部图像进行人脸对齐、人脸归一化以及数据增强预处理操作,将预处理后的图像统一调整为224×224像素。
5.根据权利要求1所述的多流注意力交互的面部表情识别方法,其特征在于,所述动态标签调整模块对最终特征重加权并对噪声标签更新的过程为:步骤I.使用线性全连接层和sigmoid激活函数得到每个样本的重要性权重,并将它们分成两个子集即干净样本子集与噪声样本子集,使用区域控制损失正则化重要性权重;
其中,步骤I中的样本是指通道交互模块输出的最终特征Ffuse中的样本;
步骤II.基于softmax函数预测概率,对于低权重样本子集的每个样本,比较其最大预测概率与原始给定标签所对应的预测概率之间的差异,实现对噪声标签的精准识别与更新;
其中,低权重样本子集即步骤I得到的噪声样本子集;
具体判断过程为:如果某个样本的最大预测概率高出给定标签的最大预测概率一个预设的阈值,则将为样本分配一个新的伪标签,这个伪标签即为最大预测概率所对应的类别。
6.根据权利要求5所述的多流注意力交互的面部表情识别方法,其特征在于,所述步骤I具体为:设通道交互模块输出的最终特征Ffuse=[x1,x2,...,xN],包含N张图像的面部特征;
重加权处理部分包括一个线性全连接层以及一个sigmoid激活函数,以融合后的最终特征Ffuse作为输入,并为每个特征向量输出一个对应的重要性权重,表示为:其中,αi为第i个样本的重要性权值,Wa为全连接层用于重要性关注的参数,σ表示sigmoid激活函数,xi表示最终特征Ffuse中的第i个样本,i=1,2,...,N;
根据预先设定的划分比例β,将样本划分为干净样本子集与噪声样本子集两个子集。
7.根据权利要求6所述的多流注意力交互的面部表情识别方法,其特征在于,所述步骤I中,定义区域控制损失LRC,计算公式如下:LRC=max{0,δ1‑(αH‑αL)};
其中,δ1为划分子集的阈值,αH和αL分别为M个样本的高权重样本子集和N‑M个样本的低权重样本子集的平均值,高权重样本子集即步骤I得到的干净样本子集。
8.根据权利要求7所述的多流注意力交互的面部表情识别方法,其特征在于,所述步骤II中,针对低权重样本子集中样本的softmax预测概率来执行标签更新操作;
对于低权重样本子集中的每个样本,比较其最大预测概率与原始给定标签所对应的预测概率;若某样本的最大预测概率超出了给定标签的最大预测概率一个预设的阈值,则会为该样本分配一个新的伪标签,该伪标签即为最大预测概率所对应的类别;
标签更新定义为:
其中,y′为新的伪标签,δ2为标签更新的阈值,Pmax为最大预测概率,Pgt为给定标签的预测概率,lorg和lmax分别是原始给定的标签和最大预测概率对应的标签。
9.根据权利要求8所述的多流注意力交互的面部表情识别方法,其特征在于,所述步骤3中,在模型训练过程中,采用加权交叉熵损失处理多分类问题中噪声标签;
采用以下公式来定义加权交叉熵损失LWCE:
其中,wyi是第i个样本对应的真实类别yi的权重向量,wj是第j个类别的权重向量,C表示类别总数,N表示样本总数;
在训练中,总损失函数Ltotal为:Ltotal=γLRC+(1‑γ)LWCE,其中γ为权衡比。