利索能及
我要发布
收藏
专利号: 2022114682388
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种小尺度感知增强的人体姿态估计方法,包括如下步骤:

(1)获取大量含有人物的图片,并对图片中人物的关节点位置进行标注;

(2)构建基于SSA‑Net的模型框架,其包括:

BackBone模块,用于对输入的图片进行特征提取;

TAA模块,用于对提取得到的特征图进行特征增强;

SimCC模块,根据增强后的特征图对关节点位置进行预测;

(3)利用步骤(1)中获取的图片及其标注信息对上述模型框架进行训练;

(4)将包含人物的待估计图片输入至训练好的模型中,即可预测出该图片中人物各关节点的位置坐标。

2.根据权利要求1所述的人体姿态估计方法,其特征在于:所述BackBone模块以HRNet_W48为骨干网络,保留高分辨率分支,并将其他分辨率分支的输出进行了特征融合。

3.根据权利要求1所述的人体姿态估计方法,其特征在于:所述TAA模块的输入特征图为原图片尺寸的1/4,该模块首先利用转置卷积将输入特征图的大小转变为原图片尺寸的

1/2,然后将特征图通过1×1的卷积操作,保证特征图尺寸不变的前提下,将其通道数扩大为原来的2倍;进而再将特征图送入坐标注意力机制模块进行编码,最后将坐标注意力机制模块的输入与输出通过残差机制进行特征融合后作为TAA模块最终的输出结果。

4.根据权利要求3所述的人体姿态估计方法,其特征在于:所述坐标注意力机制模块首先将输入特征图从宽度和高度两个方向分别进行全局平均池化,得到宽度和高度两个方向的特征图,然后将这两个方向的特征图拼接在一起后依次通过1×1的卷积操作、批量归一化处理以及Sigmoid激活函数得到特征图f,进而将特征图f按照原来的高度和宽度分别进行1×1的卷积操作得到通道数与输入一样的特征图Fh和F,Fh和F分别通过Sigmoid激活函数h w h w后得到对应高度和宽度上的注意力权重g 和g ,最后利用g和g 对输入特征图进行乘法加权计算,得到在高度和宽度方向上带有注意力权重的特征图作为坐标注意力机制模块的输出结果。

5.根据权利要求1所述的人体姿态估计方法,其特征在于:所述SimCC模块的输入为TAA模块输出H×W×C的特征图,其中H表示特征图的高度,W表示特征图的宽度,C表示通道数,且H和W分别为原图片高度和宽度的1/2;SimCC模块首先将各通道的输入特征图拉直成一维向量的形式,向量长度为HW,然后通过线性层将特征图的通道数C降为N,N为关节点数量,进而将N个通道的一维向量分别通过水平轴坐标分类器和垂直轴坐标分类器,水平轴坐标分类器将N通道的一维向量长度降为kW并提取各通道向量中的最大值,进而映射得到这些最大值对应的预测点横坐标 垂直轴坐标分类器将N通道的一维向量长度降为kH并提取各通道向量中的最大值,进而映射得到这些最大值对应的预测点纵坐标最后输出各关节点的预测坐标 i为自然数且1≤i≤N,k为大于1的缩放因子。

6.根据权利要求1所述的人体姿态估计方法,其特征在于:所述步骤(3)的具体实现方式如下:

3.1初始化模型参数,包括每一层的偏置向量和权值矩阵、学习率以及优化器;

3.2将含有人物的图片输入至模型,模型正向传播输出得到对应的预测结果即关节点位置坐标,计算该预测结果与标注信息之间的损失函数;

3.3根据损失函数利用优化器通过梯度下降法对模型参数不断迭代更新,直至损失函数收敛,训练完成。

7.根据权利要求6所述的人体姿态估计方法,其特征在于:所述损失函数采用预测结果与标注信息之间KL散度。

8.根据权利要求1所述的人体姿态估计方法,其特征在于:该方法针对于小尺度目标的表现做了专门的优化,选用了更为精确的Top‑down结构,抛弃了热图表示法,改用基于一维向量表示法的SimCC来更加精准的定位小尺度目标的关键点,同时在SimCC‑baseline的基础上提出了TAA模块,通过消融实验也验证了TAA模块的有效性,最终在整体AP上取得了不错的结果。