买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于自注意力变换网络的动态人脸表情识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于自注意力变换网络的动态人脸表情识别方法

￥31200

专利号： 2021109236683

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于自注意力变换网络的动态人脸表情识别方法，其特征在于包含以下步骤：步骤一：在空间维度上设计了一种联合深度卷积神经网络的空间自注意力变换网络，通过编码局部特征之间的相互关系，从而获得对自然环境下人脸姿态变化和遮挡鲁棒的人脸表情特征；

步骤二：在时间维度上设计了一种时序自注意力变换网络，通过编码人脸表情视频各帧之间的相互关系，从而获得具有上下文感知的时序人脸表情特征；

所述的步骤一中的联合深度卷积神经网络的空间自注意力变换网络包含以下步骤：第一步：给定一个人脸视频，首先将输入视频分为U个片段，然后从每个片段中随机采样V帧，最后将采样得到的T＝U×V帧序列送入人脸检测器中检测并裁剪人脸区域，T帧人脸序列标记为第二步：对于每一帧人脸图像，该网络利用四个卷积块提取特征图接着将特征图M的维度变为这样就得到Q个视觉词向量，并且每个词向量的长度为C，然后空间编码器的输入可由如下操作得到：其中，代表一个可学习的位置编码；p∈{1，2，…，Q}；

第三步：该网络包含三个空间编码器，在每一个编码器l上，每一个视觉词的查询向量q、键值向量k、数值向量v都是通过前层的计算得到的，可由如下操作计算：其中，LN(·)代表层归一化，k∈{1，…，K}代表多头自注意力每一个头的索引，K代表所有的头数，C′＝C/K表示多头自注意力隐藏层的维度；

第四步：每一个查询p的权重可通过点乘计算得到，即：其中SM代表SoftMax激活函数；

第五步：为了计算每一个块l的编码首先利用每一个头的自注意力系数计算数值向量的加权和，即：第六步：然后，所有注意力头的串联结果通过一个带有残差连接的多层感知机映射，可由如下操作计算：第七步：最后，将Q个编码在空间维度上串联起来得到优化后的特征图每一帧的特征编码可由如下操作得到：

x′t＝GAP(g(Mr)) (7)

其中，g(·)代表卷积模块；GAP代表全局平均池化；t∈{1，2，…，T}，因为所有的视频帧都共享该网络，因此给定一个输入所有帧的特征表达通过一个该网络获得；

所述的步骤二中的时序自注意力变换网络由以下步骤组成：第一步：给定一个输入即可得到T个空间特征向量，然后该网络的输入可由如下操作得到：其中代表一个可学习的位置编码；t′∈{0，1，...，T}和空间自注意力网络不同的是，我们在序列的第一个位置添加了一个特殊的可学习的类别向量第二步：该网络每一层l的查询向量键值向量数值向量可由公式(2)计算获得，其中F′＝F/K；

每一个查询向量t′的自注意力权重可由如下操作计算：每一个块l的编码可由以下操作计算：

最终的序列特征表示从该网络最后一层的分类向量中获得，可由以下操作计算：其中，FC代表全连接网络，J代表人脸表情的类别数。

2.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法，其特征在于：所述的步骤一中的联合深度卷积神经网络由五个卷积模块和三个空间编码器组成，每一个空间编码器由多头的空间自注意力和前向传播网络组成。

3.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法，其特征在于：所述的步骤二中的时序自注意力变换网络由三个时序编码器组成，其中每个时序编码器由时间上的多头自注意力和前向传播网络组成。