买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于GAMHR-Net的多人姿态估计方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于GAMHR-Net的多人姿态估计方法及系统

面议

专利号： 2022104508953

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于GAMHR‑Net的多人姿态估计方法，其特征在于，包括以下步骤：

(1)采用目标检测网络对输入图像或视频进行检测，获取人体位置信息；

(2)构建GAMHR‑Net网络；所述GAMHR‑Net网络包括一个Stem‑Net模块、四个Stage模块、四个transition模块以及三个GAM Block模块；所述Stem‑Net模块包括主干网络和Res‑multiConv结构；

(3)将人体位置信息与对应的图像送入GAMHR‑Net网络进行特征提取和特征融合；首先经Stem‑Net模块初步提取底层特征；然后经Stage模块和GAM Block模块进一步进行特征提取，并经transition模块进行特征融合；

(4)经过步骤(3)之后得到人体关节点并将关节点在原图像或原视频上展示出来。

2.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法，其特征在于，步骤(2)所述主干网络为一个步长为2，padding为1，输入通道为3，输出通道为64的3×3的卷积层，之后再经过Batch Normalization层和ReLu激活层；然后，再接一个步长为2，padding为

1，输入通道为64，输出通道为64的3×3的卷积层，之后再经过BatchNormalization层和ReLu激活层。

3.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法，其特征在于，所述步骤(3)所述Stem‑Net模块初步提取底层特征实现过程如下：Res‑multiConv结构将Stem‑Net的主干网络分为两条支路；第一条支路首先经过一个步长为1，卷积核大小为1×1的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行Batch Normalization操作之后得到R11；接着，以R11作为输入，经过一个步长为

1，卷积核大小为1×1的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行BatchNormalization和ReLU操作之后得到R12；然后，以R12作为输入，经过一个步长为1，卷积核大小为1×1的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行BatchNormalization操作之后得到R13；最后，将R11和R13进行矩阵和操作，再进行ReLu激活之后得到R1；

第二条支路首先经过一个步长为1，卷积核大小为3×3的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行BatchNormalization操作之后得到R21；接着，以R21作为输入，经过一个步长为1，卷积核大小为1×1的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行Batch Normalization和ReLU操作之后得到R22；然后，以R22作为输入，经过一个步长为1，卷积核大小为3×3的Depthwise卷积，再经过卷积核大小为1×1的Pointwise卷积，再进行Batch Normalization操作之后得到R23；最后，将R21和R23进行矩阵和操作，再进行ReLu激活之后得到R2；

将R1和R2进行矩阵和操作得到R，提取到更多的底层特征。

4.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法，其特征在于，步骤(3)所述Stage模块和GAM Block模块进一步进行特征提取，并经transition模块进行特征融合实现过程如下：每个Stage模块中的每个branch都包含四个feature map；Stage1有一个branch，为branch11，其输入为R，branch11通过下采样和多次残差连接提取特征，输入通道数为64，输出通道数为256；然后通过步长为1，大小为3×3的卷积保持该分支分辨率不变，为branch21，该分支的输出通道数为48；之后是transition1模块，通过步长为2，大小为3×3的卷积再产生一个分支branch22，该分支的输出通道数为96；

Stage2有两个branch，分别为branch21和branch22，在branch22的开始处设置一个GAM Block模块，首先通过步长为2，大小为3×3的卷积对branch21的输出进行处理，产生的通道数为96，然后与branch22的输出进行融合之后进入branch32；然后通过步长为1，大小为1×

1的卷积对branch22的输出进行上采样，该分支的输出通道数为48，然后与branch21的输出进行融合之后进入branch31；之后是transition2模块，通过步长为2，大小为3×3的卷积对branch22的输出进行处理产生一个通道数为192的分支branch33；

Stage3有三个branch，分别为branch31、branch32和branch33，在branch33的开始处设置一个GAM Block模块；首先通过步长为2，大小为3×3的卷积对branch31的输出进行处理，输出通道数为48，记为T11；然后通过步长为1，大小为1×1的卷积对branch32的输出进行上采样，输出通道数为48，记为T12；再通过步长为1，大小为1×1的卷积对branch33的输出进行上采样，输出通道数为48，记为T13；再将T11、T12、T13进行融合得到T1；接着，通过步长为

2，大小为3×3的卷积对branch31的输出进行处理，输出通道数为96，记为T21；然后通过步长为1，大小为1×1的卷积对branch33的输出进行上采样，输出通道数为96，记为T23；

branch32的输出不变，记为T22，再将T21、T22、T23进行融合得到T2；之后，通过步长为2，大小为3×3的卷积对branch31的输出进行处理，输出通道数为192，记为T31；然后通过步长为

2，大小为3×3的卷积对branch32的输出进行处理，输出通道数为192，记为T32，branch33的输出不变，记为T33，再将T31、T32、T33进行融合得到T3；Stage3重复四次之后是transition3模块，通过步长为2，大小为3×3的卷积对branch33的输出进行处理，输出通道数为384，记为T4；

Stage4有四个branch，分别为branch41、branch42、branch43和branch44，在branch44的开始处设置一个GAM Block模块；与Stage3类似进行交叉融合，重复三次；之后是transition4模块，首先通过步长为1，大小为1×1的卷积分别对T1、T2、T3、T4的输出进行上采样，输出为分别为F11、F12、F13、F14，然后将F11、F12、F13、F14进行融合得到F，然后再通过步长为1，大小为1×1的卷积对F进行处理，输入通道数为48，输出通道数为17。

5.根据权利要求1所述的一种基于GAMHR‑Net的多人姿态估计方法，其特征在于，所述Depthwise卷积和Pointwise卷积的输入输出通道数均为64。

6.一种采用如权利要求1‑5任一所述方法的基于GAMHR‑Net的多人姿态估计系统，其特征在于，包括：

目标检测模块，用于对输入的图像或视频进行检测，得出当前输入中的所有人体位置信息；

姿态估计模块，用于将目标检测网络得到的人体位置坐标及对应的图像送入GAMHR‑Net网络进行特征提取和特征融合，得到人体关节点；所述GAMHR‑Net网络包括一个Stem‑Net模块、四个Stage模块、四个transition模块以及三个GAM Block模块；首先经Stem‑Net模块初步提取底层特征；然后经Stage模块和GAM Block模块进一步进行特征提取，并经transition模块进行特征融合；

显示模块，人体关节点显示在原输入图像或视频上，实现可视化。