利索能及
我要发布
收藏
专利号: 2022104508953
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于GAMHR‑Net的多人姿态估计方法,其特征在于,包括以下步骤:

(1)采用目标检测网络对输入图像或视频进行检测,获取人体位置信息;

(2)构建GAMHR‑Net网络;所述GAMHR‑Net网络包括一个Stem‑Net模块、四个Stage模块、四个transition模块以及三个GAM Block模块;所述Stem‑Net模块包括主干网络和Res‑multiConv结构;

(3)将人体位置信息与对应的图像送入GAMHR‑Net网络进行特征提取和特征融合;首先经Stem‑Net模块初步提取底层特征;然后经Stage模块和GAM Block模块进一步进行特征提取,并经transition模块进行特征融合;

(4)经过步骤(3)之后得到人体关节点并将关节点在原图像或原视频上展示出来。

2.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法,其特征在于,步骤(2)所述主干网络为一个步长为2,padding为1,输入通道为3,输出通道为64的3×3的卷积层,之后再经过Batch Normalization层和ReLu激活层;然后,再接一个步长为2,padding为

1,输入通道为64,输出通道为64的3×3的卷积层,之后再经过BatchNormalization层和ReLu激活层。

3.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法,其特征在于,所述步骤(3)所述Stem‑Net模块初步提取底层特征实现过程如下:Res‑multiConv结构将Stem‑Net的主干网络分为两条支路;第一条支路首先经过一个步长为1,卷积核大小为1×1的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行Batch Normalization操作之后得到R11;接着,以R11作为输入,经过一个步长为

1,卷积核大小为1×1的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行BatchNormalization和ReLU操作之后得到R12;然后,以R12作为输入,经过一个步长为1,卷积核大小为1×1的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行BatchNormalization操作之后得到R13;最后,将R11和R13进行矩阵和操作,再进行ReLu激活之后得到R1;

第二条支路首先经过一个步长为1,卷积核大小为3×3的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行BatchNormalization操作之后得到R21;接着,以R21作为输入,经过一个步长为1,卷积核大小为1×1的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行Batch Normalization和ReLU操作之后得到R22;然后,以R22作为输入,经过一个步长为1,卷积核大小为3×3的Depthwise卷积,再经过卷积核大小为1×1的Pointwise卷积,再进行Batch Normalization操作之后得到R23;最后,将R21和R23进行矩阵和操作,再进行ReLu激活之后得到R2;

将R1和R2进行矩阵和操作得到R,提取到更多的底层特征。

4.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法,其特征在于,步骤(3)所述Stage模块和GAM Block模块进一步进行特征提取,并经transition模块进行特征融合实现过程如下:每个Stage模块中的每个branch都包含四个feature map;Stage1有一个branch,为branch11,其输入为R,branch11通过下采样和多次残差连接提取特征,输入通道数为64,输出通道数为256;然后通过步长为1,大小为3×3的卷积保持该分支分辨率不变,为branch21,该分支的输出通道数为48;之后是transition1模块,通过步长为2,大小为3×3的卷积再产生一个分支branch22,该分支的输出通道数为96;

Stage2有两个branch,分别为branch21和branch22,在branch22的开始处设置一个GAM Block模块,首先通过步长为2,大小为3×3的卷积对branch21的输出进行处理,产生的通道数为96,然后与branch22的输出进行融合之后进入branch32;然后通过步长为1,大小为1×

1的卷积对branch22的输出进行上采样,该分支的输出通道数为48,然后与branch21的输出进行融合之后进入branch31;之后是transition2模块,通过步长为2,大小为3×3的卷积对branch22的输出进行处理产生一个通道数为192的分支branch33;

Stage3有三个branch,分别为branch31、branch32和branch33,在branch33的开始处设置一个GAM Block模块;首先通过步长为2,大小为3×3的卷积对branch31的输出进行处理,输出通道数为48,记为T11;然后通过步长为1,大小为1×1的卷积对branch32的输出进行上采样,输出通道数为48,记为T12;再通过步长为1,大小为1×1的卷积对branch33的输出进行上采样,输出通道数为48,记为T13;再将T11、T12、T13进行融合得到T1;接着,通过步长为

2,大小为3×3的卷积对branch31的输出进行处理,输出通道数为96,记为T21;然后通过步长为1,大小为1×1的卷积对branch33的输出进行上采样,输出通道数为96,记为T23;

branch32的输出不变,记为T22,再将T21、T22、T23进行融合得到T2;之后,通过步长为2,大小为3×3的卷积对branch31的输出进行处理,输出通道数为192,记为T31;然后通过步长为

2,大小为3×3的卷积对branch32的输出进行处理,输出通道数为192,记为T32,branch33的输出不变,记为T33,再将T31、T32、T33进行融合得到T3;Stage3重复四次之后是transition3模块,通过步长为2,大小为3×3的卷积对branch33的输出进行处理,输出通道数为384,记为T4;

Stage4有四个branch,分别为branch41、branch42、branch43和branch44,在branch44的开始处设置一个GAM Block模块;与Stage3类似进行交叉融合,重复三次;之后是transition4模块,首先通过步长为1,大小为1×1的卷积分别对T1、T2、T3、T4的输出进行上采样,输出为分别为F11、F12、F13、F14,然后将F11、F12、F13、F14进行融合得到F,然后再通过步长为1,大小为1×1的卷积对F进行处理,输入通道数为48,输出通道数为17。

5.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法,其特征在于,所述Depthwise卷积和Pointwise卷积的输入输出通道数均为64。

6.一种采用如权利要求1‑5任一所述方法的基于GAMHR‑Net的多人姿态估计系统,其特征在于,包括:

目标检测模块,用于对输入的图像或视频进行检测,得出当前输入中的所有人体位置信息;

姿态估计模块,用于将目标检测网络得到的人体位置坐标及对应的图像送入GAMHR‑Net网络进行特征提取和特征融合,得到人体关节点;所述GAMHR‑Net网络包括一个Stem‑Net模块、四个Stage模块、四个transition模块以及三个GAM Block模块;首先经Stem‑Net模块初步提取底层特征;然后经Stage模块和GAM Block模块进一步进行特征提取,并经transition模块进行特征融合;

显示模块,人体关节点显示在原输入图像或视频上,实现可视化。