利索能及
我要发布
收藏
专利号: 2022104921255
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,包括以下步骤:步骤1:将原始表情图像输入到以VGG16为基础的特征提取网络,提取输入表情图像的深度全局特征;

步骤2:设计区域局部多值模式,将原始表情图像输入到区域局部多值模式对区域纹理进行增强;其中,所述的区域局部多值模式利用改进的K‑means算法对像素进行动态聚类;

在改进的K‑means算法中,首先计算每个数据点到原点的距离;然后,根据排序后的距离对原始数据点进行排序,将排序后的数据点划分为k个相等的集合,每组中以中间点为初始质心;这些初始质心获得更好的独特聚类结果;通过改进的K‑means算法能够保证表情变化区域特征的鲁棒性,并将二值模式扩展到k个模式,整合区域内像素间的灰度差信息,增强区域纹理特征;

步骤3:将增强过的区域纹理特征输入到区域自注意模块,区域自注意模块包含区域自注意机制和秩正则化损失,区域自注意机制增强表情显著变化区域特征的权重,量化不同区域对表情识别的贡献,得到增强后的区域纹理注意特征;而秩正则化损失被用来约束不同区域的权重,使不同区域的权重值更有区分度;

步骤4:将步骤3提取到的区域加权特征与VGG网络提取的深度全局特征进行融合;

所述步骤3,将增强过的区域纹理特征输入到区域自注意模块,区域自注意模块包含区域自注意机制和秩正则化损失,区域自注意机制增强表情显著变化区域特征的权重,量化不同区域对表情识别的贡献,得到增强后的区域纹理注意特征;而秩正则化损失被用来约束不同区域的权重,使不同区域的权重值更有区分度;具体包含以下步骤:C1:将在B4步骤中得到的鲁棒的特征表示Fr输入到降维卷积神经网络,得到每个区域的深度特征图,定义输入的区域纹理图像为I1,I2,…,I9,降维卷积神经网络的定义如下:X=[F1,F2,…,F9]=[V(I1;θ),V(I2;θ),…,V(I9;θ)]            (4)其中V(·;θ)为降维卷积神经网络,θ为降维卷积神经网络中的参数,X是通过降维卷积神经网络提取到的区域特征集合;

C2:为了得到每个区域在人脸表情识别任务中的贡献,利用自我注意机制获取每个区域的权重,通过FC和Sigmoid函数计算特征的粗略权值,定义如下:T T T

W=[a1,a2,…,ak]=[f(F1q),f(F2q),…,f(F9q)]            (5)其中ai表示第i个区域的权值,f表示Sigmoid函数,q表示全连接层的参数,将所有具有注意权重的局部特征归纳为一个整体表示Fm,其定义如下:这里,s表示特征块之间的级联操作;

C3:引用秩正则化损失RRLoss来约束不同区域的权值;首先对不同区域的权重进行排序,然后按照一定的比例将其分为高权重组和低权重组;其次,计算高、低权重组的平均权重,分别用ahigh和alow表示;

在RRLoss中添加差值M以限制这些组的平均权重,其定义如下所示:

LRR=max{0,M‑(ahigh‑alow)}                  (9)Ghigh和Glow分别表示高权重组和低权重组的权重均值,λ表示高权重组所占的比例,N表示区域的个数;M是一个差值,它是一个固定的可学习参数或超参数,LRR用于增强区域关注的权重,鼓励网络在训练过程中优先关注表情变化区域。

2.根据权利要求1所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,所述步骤1将原始表情图像输入到以VGG16为基础的特征提取网络,提取输入表情图像的深度全局特征,具体包括:A1:将人脸表情图像,通过人脸检测对齐网络MTCNN检测出人脸关键点,并将人脸图像对齐,裁剪为224×224尺寸大小的输入图像I;

A2:将图像I输入到VGG16网络中提取特征,用Fg表示,则Fg定义为:Fg=γ(I;θ)                              (1)其中γ(;)为骨干网络,θ为骨干网络中的参数,Fg是通过骨干网络提取到的深度全局特征。

3.根据权利要求2所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,所述步骤2,设计区域局部多值模式,将原始表情图像输入到区域局部多值模式对区域纹理进行增强,具体包含以下步骤:B1:对于输入的人脸表情图像,将其均匀裁剪为3×3人脸表情图像区域;

B2:对于每个区域,定义其灰度值与局部邻域像素均值的差值mi,然后利用该差值作为新的像素图Menhance,定义如下:其中Pc表示像素图的中心像素值,Pi表示与Pc相邻的像素值; 表示局部邻域像素均值,P表示周围采样像素的集合,i表示周围采样像素集和的索引;

B3:将增强后的特征图Menhance的增强像素存储在数组a中,并将其分成k等份,得到a1,a2,…,ak,定义每个类的中心值作为校准点,计算每个像素到校准点的距离;将最接近的像素组成一个类,计算类中像素的均值,并将均值作为新的定标点,最后通过迭代得到最后k个定标点;

B4:将每层的像素值进行二值化,得到k个模式,并将这些模式进行级联,得到每个区域鲁棒的特征表示Fr。

4.根据权利要求3所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,所述步骤4,将步骤3提取到的区域加权特征与VGG网络提取的深度全局特征进行融合;具体包含以下步骤:D1:将C2步骤提取到的增强后的区域纹理注意特征Fm与深度全局特征Fg进行有效融合;

D2:通过Concat操作将通道数相加,用于描述图像本身的特征得到增加,其定义如下:F=concat(Fm,Fg)                     (10)然后将融合后的特征F送入分类器进行表情识别。