1.一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于包含以下步骤:步骤一:在空间维度上设计了一种联合深度卷积神经网络的空间自注意力变换网络,通过编码局部特征之间的相互关系,从而获得对自然环境下人脸姿态变化和遮挡鲁棒的人脸表情特征;
步骤二:在时间维度上设计了一种时序自注意力变换网络,通过编码人脸表情视频各帧之间的相互关系,从而获得具有上下文感知的时序人脸表情特征;
所述的步骤一中的联合深度卷积神经网络的空间自注意力变换网络包含以下步骤:第一步:给定一个人脸视频,首先将输入视频分为U个片段,然后从每个片段中随机采样V帧,最后将采样得到的T=U×V帧序列送入人脸检测器中检测并裁剪人脸区域,T帧人脸序列标记为第二步:对于每一帧人脸图像,该网络利用四个卷积块提取特征图 接着将特征图M的维度变为 这样就得到Q个视觉词向量,并且每个词向量的长度为C,然后空间编码器的输入可由如下操作得到:其中, 代表一个可学习的位置编码;p∈{1,2,…,Q};
第三步:该网络包含三个空间编码器,在每一个编码器l上,每一个视觉词的查询向量q、键值向量k、数值向量v都是通过前层的 计算得到的,可由如下操作计算:其中,LN(·)代表层归一化,k∈{1,…,K}代表多头自注意力每一个头的索引,K代表所有的头数,C′=C/K表示多头自注意力隐藏层的维度;
第四步:每一个查询p的权重 可通过点乘计算得到,即:其中SM代表SoftMax激活函数;
第五步:为了计算每一个块l的编码 首先利用每一个头的自注意力系数计算数值向量的加权和,即:第六步:然后,所有注意力头的串联结果通过一个带有残差连接的多层感知机映射,可由如下操作计算:第七步:最后,将Q个编码 在空间维度上串联起来得到优化后的特征图每一帧的特征编码 可由如下操作得到:
x′t=GAP(g(Mr)) (7)
其中,g(·)代表卷积模块;GAP代表全局平均池化;t∈{1,2,…,T},因为所有的视频帧都共享该网络,因此给定一个输入 所有帧的特征表达 通过一个该网络获得;
所述的步骤二中的时序自注意力变换网络由以下步骤组成:第一步:给定一个输入 即可得到T个空间特征向量,然后该网络的输入可由如下操作得到:其中 代表一个可学习的位置编码;t′∈{0,1,...,T}和空间自注意力网络不同的是,我们在序列的第一个位置添加了一个特殊的可学习的类别向量第二步:该网络每一层l的查询向量 键值向量 数值向量 可由公式(2)计算获得,其中F′=F/K;
每一个查询向量t′的自注意力权重 可由如下操作计算:每一个块l的编码 可由以下操作计算:
最终的序列特征表示从该网络最后一层的分类向量中获得,可由以下操作计算:其中,FC代表全连接网络,J代表人脸表情的类别数。
2.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤一中的联合深度卷积神经网络由五个卷积模块和三个空间编码器组成,每一个空间编码器由多头的空间自注意力和前向传播网络组成。
3.根据权利要求1所述的一种基于自注意力变换网络的动态人脸表情识别方法,其特征在于:所述的步骤二中的时序自注意力变换网络由三个时序编码器组成,其中每个时序编码器由时间上的多头自注意力和前向传播网络组成。