1.一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,包括以下步骤:步骤1、将每一张图像输入网络进行特征提取前,将其分割为3种不同粒度级别的图像,并将图像块进行随机打乱处理;
步骤2、将数据增强后的三张不同粒度表情图像输入到基础网络的后三层中,遵循粗粒度输入至深层网络提取粗粒度表情特征,细粒度输入至浅层网络提取细粒度表情特征,同时将粗粒度表情特征输入至全局感知注意力模块GPAM提取全局表情特征;
步骤3、对不同粒度阶段所提取的多粒度特征采用渐进式训练方法,先将细粒度图像输入至低层网络通过分类损失进行训练,再逐步将更大粒度图像输入至基础网络的下一阶段,直至最深层网络;整个过程训练三次,最后将渐进式训练得到的不同粒度特征进行拼接得到多粒度局部特征;
步骤4、将融合后的多粒度局部表情特征与全局感知表情特征进行融合,最终经过一个全连接层以及归一化处理得到最终的预测分布;将此前渐进式训练得到的不同粒度特征分别计算与多粒度融合特征的粒度相似度,以此构建标签分布;最后将构建的标签分布作为监督信号,设计一种分布损失,训练整体网络;并将网络的所有输出预测整合,作为最终预测,进行表情分类;
所述步骤2具体包括:
B1、得到3种粒度级别的增强图像,并将图像分别作为主干网络最后三阶段的输入;将主干网络特征提取器表示为F,其中包含L个阶段;特征提取器F输出的中间特征图表示为其中l∈[1,L],Hl,Wl,Cl分别表示l阶段输出特征图的高度、宽度和通道数;
l l
B2、将F输入到卷积块B中得到特征表示:
其中B(·)包含一个1x1和3x3卷积层;然后,将上述特征经过池化操作,得到特征向量l表示为v;
B3、最后,引入全局感知注意力模块,增强最终的多粒度融合特征;使用双分支注意力结构,分别为通道注意力分支和空间注意力分支;特征提取器F在StageL之后输出的特征向L L量表示为V ;首先,将V 分别在两个并行分支计算得到通道注意力map表示为空间注意力map表示为 其中通道注意力由全局平均池化和两个全连接层组成;空间注意力由2个1×1的深度可分离卷积和2个3×3的空洞卷积组成,整个全局感知注意力的计算过程如下所示:l l l
M(V)=σ(Mc(V)+Ms(V)) (4)其中σ是sigmoid函数;最后,全局特征图可以计算为:GAP表示全局平均池化,作用是将特征图所有像素值相加求平局,得到一个数值,即用该数值表示对应特征图。
2.根据权利要求1所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,所述步骤1将每一张图像输入网络进行特征提取前,将其分割为3种不同粒度级别的图像,并将图像块进行随机打乱处理,具体包括以下步骤:A1、将人脸表情图像,通过人脸检测对齐网络MTCNN检测出人脸关键点,人脸检测对齐网络MTCNN是一种多任务卷积神经网络,由三个子网络P‑Net、R‑Net、O‑Net组成,每个子网络都承担着不同的任务;P‑Net负责生成候选窗口,R‑Net负责过滤掉错误的候选窗口,O‑Net则负责人脸关键点定位和人脸框的精细化调整;这三个子网络共同协作,实现了高效准确的人脸检测,将其用来对人脸数据集图像进行预处理,即人脸检测与对齐操作,并将人脸表情图像对齐,裁剪为224×224尺寸大小的输入图像I;
A2、将图像I输入一个拼图生成器中,其中每个图像的粒度大小分别为n=1,2,4,即将图像分别分割为块大小为1×1、2×2、4×4的不同粒度图像,将每个块进行打乱,并重构图像,得到3张增强后为224×224尺寸大小的不同粒度的表情图像I1、I2、I3。
3.根据权利要求2所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,所述步骤3具体包括以下步骤:C1、将不同粒度表情特征向量分别输入到由两个带有BatchNorm和ELU激活函数的全连L‑2 L‑1 L接层组成的分类器中以生成预测概率y ,y ,y;
C2、对于每个阶段的输出的训练,采用真实标签y和预测概率分布之间的交叉熵作为分类损失,计算公式如下:其中,N表示训练图像的数量,C表示类别数,yi,k表示i张图像属于第k个类的标签, 是第l个阶段预测的属于第k个类的可能性,这里的可能性指的是属于第k个类别的概率是多少;最终总的交叉熵损失计算为:C3、为了进一步利用特征融合,通过连接渐进式训练得到的不同阶段的中间层特征向l量v来获得多粒度融合向量,公式如下:
concat L‑2 L‑1 L
v =concat[v ,v ,v] (8)。
4.根据权利要求3所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,所述步骤4具体包括以下步骤:concat
D1、在得到增强的全局特征 和多粒度融合向量v 之后,最终的多粒度融合特征计算为:D2、将多粒度融合特征输入到一个全连接层和一个归一化层softmax后,得到最终的预concat测为y ;
D3、得到最终输出的概率分布后,类似地通过原始标签进行监督,分类损失定义如下:其中, 是第i个样本的最终阶段预测属于第k个类的可能性。
5.根据权利要求4所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,步骤4构建每张表情图像具有丰富信息的标签分布作为监督,具体包括以下步骤:concat L‑2 L‑1 L
E1、计算多粒度融合特征V 与每个{v ,v ,v}的余弦相似度为sa,其中a∈[L‑2,L],具体公式如下:concat a concat a
其中
a
E2、然后,得到每一个v对应的余弦相似度sa后,再进行归一化处理,如下所示:L‑2 L‑1 L
E3、根据平均余弦相似度sa和每阶段的概率分布{y ,y ,y },由以下公式构建得到最终的标签分布l L‑2 L‑1 L
其中i∈[L‑2,L],p表示logit概率{y ,y ,y}经过一个softmax层转换得到的软概率分布。
6.根据权利要求5所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,所述步骤4将模型最终预测分布与构建的分布通过设计分布损失进行监督训练,具体包括以下步骤:F1、得到构建的标签分布后,对最终输出的多粒度融合特征进行标签分布训练,目的是最小化构建的标签分布和预测概率分布之间的差异,分布损失由下式获得:其中i为一个mini‑batch中样本的索引。
7.根据权利要求6所述的一种多粒度感知与标签分布学习的人脸表情识别方法,其特征在于,将损失进行相加操作,得到最终的总损失Ltotal,具体包括:G1、通过各模块的共同作用,整个框架的总损失函数可以表示为:Ltotal=(λ1Lsoft+λ2Lcl)+αLce (15)其中λ1和λ2是随epoch轮数变化的加权斜坡函数,计算公式如下:其中α表示平衡参数,β表示当前epoch索引,E是epoch的阈值。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至7任一项所述的多粒度感知与标签分布学习的人脸表情识别方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的多粒度感知与标签分布学习的人脸表情识别方法。