1.一种基于Transformer令牌掩码的高效人体姿态估计方法,包括如下步骤:(1)获取大量含有人物的图片,并对图片中人物的关节点位置进行标注;
(2)构建TMPose网络模型框架,其包括骨干网络、令牌生成器、Transformer模块以及热图回归模块,其中:所述骨干网络用于对输入的图片进行特征提取;
所述令牌生成器用于将骨干网络提取得到的特征图转化为一维序列形式,并通过部分掩码生成Token,具体操作过程如下:首先,将骨干网络提取得到的特征图切分成 个网格,将每个网格展平成尺寸为Ph×Pw×C的一维序列,进而将展平后的序列通过线性层将其映射为视觉令牌,于此同时随机初始化生成M个可学习的关键点令牌,其序列长度与视觉令牌一致,其中H、W、C分别为特征图的高度、宽度、通道维度;
然后,通过映射函数将视觉令牌掩码成L×(M·R)大小,掩码过程中采用的映射函数包括随机采样、均匀采样、片区采样,采用的比率R=0.4、0.6或0.8,其中L、M分别为视觉令牌的序列长度和序列数量;
最后,对视觉令牌进行位置编码,即利用二维的位置嵌入对视觉令牌中每条序列进行位置标记,进而将关键点令牌与位置编码完后的视觉令牌拼接在一起得到Token,送入至Transformer模块;
所述Transformer模块用于对输入的Token进行编码,从而输出M个一维序列,M为标注的关节点数量;
所述热图回归模块用于对这M个一维序列进行reshape生成M个热图,从中解码出各关节点位置坐标的预测结果;热图回归模块只取M个关键点令牌作为输出,进而通过多层感知机将其重新映射回二维的热图形式,具体地:将Transformer模块的输出X送入到多层感知* * * *机中,在多层感知机中首先将X映射回二维生成P,其尺寸为M×H×W,H和W分别为原图高度H和宽度W的1/4,最后将P重塑成M个热图,且热图尺寸与原图一致,在此基础上通过在热图上找到最大响应位置来定位人体的各关节点坐标;
(3)利用步骤(1)中获取的图片及其标注信息对上述模型框架进行训练;
(4)将包含人物的待估计图片输入至训练好的模型中,即可预测出该图片中人物各关节点的位置坐标。
2.根据权利要求1所述的高效人体姿态估计方法,其特征在于:为了平衡Transformer的开销,所述骨干网络只保留采用了HRNet的前三个阶段,其参数量仅为原来的25%,具体操作为:首先将输入的图片裁剪成统一尺寸,然后经过深度卷积神经网络的特征提取,生成为原图尺寸1/4的特征图。
3.根据权利要求1所述的高效人体姿态估计方法,其特征在于:所述Transformer模块由多层编码结构级联组成,每一层编码结构由正则化层L1、多头自注意力机制层、正则化层L2、多层感知机MLP依次连接组成,其中正则化层L2的输入为多头自注意力机制层的输出与正则化层L1的输入叠加而成,多层感知机MLP的输出与正则化层L2的输入叠加后作为编码结构的输出。
4.根据权利要求3所述的高效人体姿态估计方法,其特征在于:所述多头自注意力机制层由多个Self‑Attention组成,每个Self‑Attention将多头自注意力机制层的输入分别与Q K V线性变换矩阵W 、W和W 相乘对应得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V,然后通过以下公式计算出Self‑Attention的输出结果,最后将多个Self‑Attention的输出结果拼接后经过线性层即得到多头自注意力机制层的输出;
其中:Attention(Q,K,V)为Self‑Attention的输出结果,s为查询向量矩阵Q的列数,T表示转置。
5.根据权利要求1所述的高效人体姿态估计方法,其特征在于:所述步骤(3)的具体实现方式如下:
3.1初始化模型参数,包括每一层的偏置向量和权值矩阵、学习率以及优化器;
3.2将含有人物的图片输入至模型,模型正向传播输出得到对应的预测结果即关节点位置坐标,计算该预测结果与标注信息之间的损失函数;
3.3根据损失函数利用优化器通过梯度下降法对模型参数不断迭代更新,直至损失函数收敛,训练完成。
6.根据权利要求5所述的高效人体姿态估计方法,其特征在于:所述损失函数的表达式如下:其中:LMSE为损失函数,Pk为标注信息中第k个关节点真实坐标生成的热图, 为模型预测出第k个关节点的热图。