1.一种基于HGCN和手势骨架序列的手势类别识别方法,包括如下步骤:
(1)获取大量关于手势动作的视频帧序列及对应的手势类别标签,并对视频帧中的手部特征进行增强;
(2)构建基于HGCN的模型架构,其由生成器以及两个判别器DF和DV组成,生成器用于对输入的视频帧序列进行编码生成手势骨架图序列,判别器DF以手势骨架图序列中的部分帧作为输入以判别输出相应的手势类别结果,判别器DF以整个手势骨架图序列作为输入以判别输出相应的手势类别结果;
(3)利用步骤(1)获得的大量视频帧序列及其手势类别标签对上述模型架构进行训练;
(4)将待识别的手势动作视频帧序列输入训练好的模型中,即可识别出其对应的手势类别。
2.根据权利要求1所述的手势类别识别方法,其特征在于:所述视频帧序列中的每一帧都对手部关节点做了标记,包括手掌根以及每根手指的指尖、第一指节、第二指节以及指根,同一手指的指尖、第一指节、第二指节、指根与手掌根通过边依次连接。
3.根据权利要求1所述的手势类别识别方法,其特征在于:所述步骤(1)中对手部特征进行增强的具体实现方式为:在同一帧中增加相邻指尖、相邻第一指节、相邻第二指节以及相邻指根之间的边连接;对于整个视频帧序列,增加相同关节点在不同帧之间的映射连接。
4.根据权利要求1所述的手势类别识别方法,其特征在于:所述编码器从输入至输出由卷积网络D、基于时空位置编码的自注意力模块、卷积网络D1、卷积网络D2、自注意力机制模块以及图卷积网络模块依次连接,卷积网络D1和D2的输出均经过ReLU激活函数处理。
5.根据权利要求4所述的手势类别识别方法,其特征在于:所述自注意力机制模块用于学习视频帧序列的稀疏动作图,以减少图卷积网络的计算负担,同时为图卷积网络提供邻接矩阵 具体地:首先,构造初始邻接矩阵 如下:
其中:I为单位矩阵, A为N×N大小的邻接矩阵,用以表示视频帧中关节点的连接关系,若两关节点存在连接则对应的元素值设置为1,否则设置为0,N为视频帧中的关节点个数;
然后,根据模块的输入信息对整个视频帧序列计算自注意力得分,得到掩码注意力矩阵Smask;
其中:si,j表示视频帧序列中第i帧对第j帧的影响即自注意力得分,i和j表示帧序号,T表示视频帧序列的总帧数;
进而,对于矩阵Smask中的任一行,保留行内自注意力得分最高的前K个元素值,其余元素值置0,K为预设的正整数;
最后,将Smask与 相乘得到矩阵 进而对 做归一化处理后即得到最终的邻接矩阵
6.根据权利要求4所述的手势类别识别方法,其特征在于:所述图卷积网络模块为多层图卷积网络结构,每一层从输入至输出由全连接网络FC1、二维卷积网络Conv2d、全连接网络FC2依次连接组成,Conv2d的输出与邻接矩阵 相加后即作为FC2的输入,第一层的输入为模块的输入信息Hin,Hin经过一个二维卷积网络与第一层的输出相加后作为第二层的输入,从第三层开始每一层的输入即为前一层的输出,第二层的输入经过一个二维卷积网络与最后一层的输出相加后再经过一个二维卷积网络即作为图卷积网络模块的输出。
7.根据权利要求4所述的手势类别识别方法,其特征在于:所述基于时空位置编码的自注意力模块首先对视频帧序列中的关节点位置分别在时间和空间上进行编码,得到时间位置编码PEt和空间位置编码PEs;然后将模块的输入信息与PEs相加后通过多头自注意力层以及归一化处理得到中间结果,进而将该中间结果与PEt相加后通过多头自注意力层以及归一化处理即得到模块的输出结果。
8.根据权利要求7所述的手势类别识别方法,其特征在于:所述时间位置编码PEt和空间位置编码PEs均采用位置编码矩阵的形式表达,矩阵中各元素值的表达式如下:其中:PEpos,2r表示矩阵中第pos行第2r列的元素值,PEpos,2r+1表示矩阵中第pos行第2r+1列的元素值,dmodel为自注意力模块的输出维度,r为自然数,pos表示当前帧中的关节点在视频帧序列中的绝对位置,在空间位置编码PEs中pos∈[0,N),在时间位置编码PEt中pos∈[0,N×T),N为视频帧中的关节点个数,T表示视频帧序列的总帧数。