1.一种多级高效人体姿态估计系统,其特征在于,该人体姿态估计系统仅获取输入图像的单一尺度最终输出图像中人体姿态的估计结果,该系统包括:依次对输入图像进行特征提取,并分别生成低级特征、中级特征以及高级特征的局部特征提取模块、空间特征提取模块和全局特征提取模块;
所述低级特征经过空间削减器降低其空间尺度大小,得到特征大小为Cs×Hs×Ws的空间削减特征作为空间特征提取模块的输入,所述中级特征与空间削减特征相加,并将其空间维度展平,得到用于在全局特征提取模块中进行运算的展平特征;
所述全局特征提取模块输出高级特征后,利用维度转换将输入图像的高级特征的空间尺度转换为二维空间特征,并利用反卷积恢复二维空间特征的尺度大小,输出图像中人体姿态的估计结果;
所述局部特征提取模块包括分别对图像输入特征进行通道挤压和空间挤压后,得到通道挤压特征和空间挤压特征的通道挤压注意力以及空间挤压注意力;
所述空间特征提取模块包括在获取第二通道拆分前特征后,将其通道拆分为原本的1/
4、1/4和1/2大小,得到空间尺度相同、通道相邻的第一通道特征、第二通道特征和第三通道特征的通道分离器;
以及,融合第一通道特征和第二通道特征的通道信息,获取两者之间的空间关系,得到第一通道融合特征的第一通道融合器;
以及,融合第一通道融合特征和第三通道特征的通道信息,获取两者之间的空间关系,得到第二通道融合特征的第二通道融合器;
所述全局特征提取模块包括N个Transformer编码器,每个Transformer编码器中均包括用以生成多头自注意特征的多头注意力,以及对多头自注意特征进行计算,获取多头自注意特征对空间位置的感知程度的位置感知器;
所述位置感知器包括将多头自注意特征的通道扩充为其两倍得到通道扩充后特征的第一线性层,以及经激活函数ReLU激活后,将通道扩充后特征的通道缩减为其原本一半的第二线性层。
2.一种应用于上述权利要求1所述的多级高效人体姿态估计系统的多级高效人体姿态估计方法,其特征在于,该方法包括:将任一输入图像输入至局部特征提取模块中得到输入图像的低级特征;
采用空间削减器降低低级特征的空间尺度大小生成空间削减特征,并输入至空间特征提取模块中得到输入图像的中级特征;
将输入图像的中级特征与空间削减特征相加,并将其空间维度展平,得到用于在全局特征提取模块中进行运算的展平特征;
对展平特征添加位置编码得到三个大小一致的运算特征符,并通过Transformer编码器对运算特征符进行处理得到输入图像的高级特征;
将高级特征的空间尺度转换为二维空间特征,并利用反卷积恢复二维空间特征的尺度大小得到输入图像中与高级特征对应的关键点位置。
3.根据权利要求2所述的多级高效人体姿态估计方法,其特征在于,所述得到输入图像的低级特征的过程如下:特征大小为H×W×3的输入图像经过一个卷积核大小为7×7的卷积后,得到特征大小为Ci×Hi×Wi的图像输入特征;
其中,H和W分别表示输入图像的高和宽,Hi =1/4H,Wi=1/4W,Ci=256;
通道挤压注意力和空间挤压注意力对图像输入特征分别进行通道挤压和空间挤压后,得到通道挤压特征和空间挤压特征;
将所述通道挤压特征和空间挤压特征相加后,再利用残差连接与图像输入特征融合,得到输入图像的低级特征。
4.根据权利要求3所述的多级高效人体姿态估计方法,其特征在于,所述通道挤压注意力对所述图像输入特征进行通道挤压后,得到通道挤压特征的过程如下:所述通道挤压注意力获取所述图像输入特征,利用两个卷积分别压缩图像输入特征的通道由Ci至1/2 Ci和1,并维持空间大小尺度不变,得到第一通道压缩特征和第二通道压缩特征;
所述第一通道压缩特征经过维度转换和卷积处理获得用于计算通道挤压的第一通道计算特征;
所述第二通道压缩特征经过维度转换和Softmax激活函数获得用于计算通道挤压的第二通道计算特征;
利用矩阵点积操作将第一通道计算特征和第二通道计算特征进行融合,并经过卷积和Sigmoid激活函数得到通道挤压融合特征,所述通道挤压融合特征的空间大小为1×1;
利用逐元素相乘操作将所述通道挤压融合特征与图像输入特征进行融合,得到通道挤压特征。
5.根据权利要求3所述的多级高效人体姿态估计方法,其特征在于,所述空间挤压注意力对所述图像输入特征进行空间挤压后,得到空间挤压特征的过程如下:所述空间挤压注意力获取所述图像输入特征,利用两个卷积分别压缩图像输入特征的通道由Ci至1/2 Ci和1/2 Ci,维持空间大小尺度不变,得到第一空间压缩特征和第二空间压缩特征;
所述第一空间压缩特征经过池化和维度转换后,再利用Softmax激活函数获得用于计算空间挤压的第一空间计算特征;
所述第二空间压缩特征经过维度转换和卷积获得用于计算空间挤压的第二空间计算特征;
利用矩阵点积操作将第一空间计算特征和第二空间计算特征进行融合,并经过维度转换和Sigmoid激活函数得到空间挤压融合特征,所述空间挤压融合特征的通道数为1;
利用逐元素相乘操作将所述空间挤压融合特征与图像输入特征进行融合,得到空间挤压特征。
6.根据权利要求2所述的多级高效人体姿态估计方法,其特征在于,所述得到输入图像的中级特征的过程如下:将输入图像的低级特征经过空间削减器降低其空间尺度大小,得到特征大小为Cs×Hs×Ws的空间削减特征;
其中,Hs=1/4Hi,Ws=1/4Wi,Cs=256;
将空间削减特征经过批归一化BatchNorm,然后分别输入至一个卷积核大小为1×1的卷积和一个卷积核大小为5×5的深度卷积DWConv中,得到特征大小均为Cs×Hs×Ws,并用于感知通道拆分前的图像空间信息的第一通道拆分前特征,以及用于后续的通道拆分,获取空间削减特征的空间信息关系的第二通道拆分前特征;
通道分离器获取第二通道拆分前特征后,将第二通道拆分前特征的通道拆分为原本的
1/4、1/4和1/2大小,得到空间尺度相同,通道相邻的第一通道特征、第二通道特征、第三通道特征;
将所述第一通道特征和第二通道特征分别经过卷积核大小为3×3的深度卷积DWConv和卷积核大小为5×5的深度卷积DWConv之后,利用第一通道融合器融合所述第一通道特征和第二通道特征的通道信息,获取两者之间的空间关系,得到第一通道融合特征;
将所述第一通道融合特征和第三通道特征分别经过卷积核大小为5×5的深度卷积DWConv和卷积核大小为7×7的深度卷积DWConv之后,利用第二通道融合器融合所述第一通道融合特征和第三通道特征的通道信息,获取两者之间的空间关系,得到第二通道融合特征;
第二通道融合特征经过一个卷积核大小为1×1的卷积后,与第一通道拆分前特征进行逐元素相乘融合,得到输入图像的中级特征。
7.根据权利要求2所述的多级高效人体姿态估计方法,其特征在于,所述通过Transformer编码器对三个大小一致的运算特征符的计算,获取输入图像的高级特征的具体过程包括:利用多头注意力对三个大小一致的运算特征符计算自注意力值,公式为:;
其中,MSA为多头注意力的自注意力值, 表示第一运算特征符K的转置;H的取值为8;
将自注意力值MSA与第三运算特征符V相加,得到多头自注意特征;
位置感知器获取多头自注意特征后,经过层标准化,利用第一线性层扩充其通道为原本的两倍,得到通道扩充后特征;
对通道扩充后特征执行层标准化,经过激活函数ReLU激活后,再次执行层标准化,并利用第二线性层缩减其通道为原本的一半,得到通道缩减后特征;
将通道缩减后特征经过层标准化,再与多头自注意特征相加,得到位置感知特征;
再经过N个Transformer编码器之后,全局特征提取模块输出高级特征。