买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于增强型拓扑感知网络的三维人体姿态估计方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于增强型拓扑感知网络的三维人体姿态估计方法

￥31200

专利号： 2025103610178

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于增强型拓扑感知网络的三维人体姿态估计方法，其特征在于，包括：S1、获取人体动作捕捉数据集；

S2、构建增强型拓扑感知网络模型，利用步骤S1中的数据集对该模型进行训练，得到最终的增强型拓扑感知网络模型；具体内容为：增强型拓扑感知网络模型包括依次连接的特征嵌入块、重复堆叠5次的增强拓扑感知模块和回归头；

其中，增强拓扑感知模块包括时空双分支Transformer和混合约束模块；

将步骤S1中的数据集按照7:3分为训练集和测试集，利用训练集对增强型拓扑感知网络模型进行训练，利用测试集对训练后的增强型拓扑感知网络模型进行测试，得到最终的增强型拓扑感知网络模型；

S3、将需要检测的人体图片或视频输入到最终的增强型拓扑感知网络模型中，得到每个关节对应的三维坐标，完成三维人体姿态的估计；具体内容为：T×N×3

利用二维姿态检测器获取关节的二维坐标P2D∈R ，其中T和N分别表示序列的帧数和关节数，数字3表示维度，该维度包括关节的横、纵坐标和置信度分数；将该二维坐标输入到最终的增强型拓扑感知网络模型中，经过特征嵌入块，将该二维坐标投影到高维，得到初T×N×C步高维特征P∈R ，其中C表示维度大小；

添加一组张量，将其与初步高维特征相加后输入到增强拓扑感知模块中，利用时空双分支Transformer计算关节间的时空全局依赖关系，得到融合后的中间特征，具体内容为：时空双分支Transformer包括以空间‑时间顺序堆叠的Transformer块和以时间‑空间顺序堆叠的Transformer块；其中，以空间‑时间顺序堆叠的Transformer块包括依次连接的空间编码器和时间编码器，以时间‑空间顺序堆叠的Transformer块包括依次连接的时间编码器和空间编码器；

相加后的张量和初步高维特征经过时空双分支Transformer，得到相应的中间特征，具体表达式为：P1＝TTE(STE(P))；

P2＝STE(TTE(P))；

其中，P1表示经过以空间‑时间顺序堆叠的Transformer块得到的中间特征，P2表示经过以时间‑空间顺序堆叠的Transformer块得到的中间特征，TTE表示时间编码器，STE表示空间编码器；

对P1、P2进行自适应融合，得到融合后的中间特征，具体表达式为：W＝FC(Concat(P1,P2))；

F＝W1·P1+W2·P2；

其中，W表示维度转化后的张量，FC表示线性层，Concat表示拼接操作，F表示融合后的中间特征，W1与W2均表示权重；

根据关节的自由度和所属肢体类别，利用混合约束模块分别获取不同关节的局部拓扑约束，通过自适应融合得到最终的混合拓扑约束，利用该约束对融合后的中间特征进行结构化引导，完成增强拓扑感知模块的操作；

在增强拓扑感知模块中进行的操作重复5次，得到人体拓扑结构的增强型特征，经过回T×N×3归头，利用线性层预测得到最终的三维姿态坐标P3D∈R 。

2.根据权利要求1所述的基于增强型拓扑感知网络的三维人体姿态估计方法，其特征在于，步骤S1中，从Human3.6M和MPI‑INF‑3DHP大型动作捕捉数据集中获取关节的二维坐标、三维坐标及其真值。

3.根据权利要求1所述的基于增强型拓扑感知网络的三维人体姿态估计方法，其特征在于，张量的形状分别为N×C和T×1×C且初始化为0。

4.根据权利要求1所述的基于增强型拓扑感知网络的三维人体姿态估计方法，其特征在于，根据关节的自由度对关节进行分组，具体表达式为：DoF1＝{right_shoulder,left_shoulder,right_hip,left_hip}；

DoF2＝{right_elbow,left_elbow,right_knee,left_knee}；

DoF3＝{right_wrist,left_wrist,right_feet,left_feet}；

其中，DoF1、DoF2、DoF3均表示关节的自由度分组，right_shoulder表示右肩，left_shoulder表示左肩，right_hip表示右髋，left_hip表示左髋，right_elbow表示右肘，left_elbow表示左肘，right_knee表示右膝，left_knee表示左膝，right_wrist表示右手腕，left_wrist表示左手腕，right_feet表示右脚，left_feet表示左脚；

根据所属肢体类别对关节进行分组，具体表达式为：

Part1＝{right_shoulder,right_elbow,right_wrist}；

Part2＝{left_shoulder,left_elbow,left_wrist}；

Part3＝{right_hip,right_knee,right_feet}；

Part4＝{left_hip,left_knee,left_feet}；

其中，Part1、Part2、Part3、Part4分别表示人体的右臂、左臂、右腿、左腿；

静态关节分组的表达式为：

Static＝{head,neck,thorax,spine,hip}；

其中，Static表示静态关节分组，head表示头部，neck表示颈部，thorax表示胸部，spine表示脊柱，hip表示髋关节。

5.根据权利要求1所述的基于增强型拓扑感知网络的三维人体姿态估计方法，其特征在于，根据关节的自由度和所属肢体类别对融合后的中间特征进行分组，得到自由度分组特征和所属肢体类别分组特征；

对分组特征进行特征维度转换，得到转换后的分组特征 F ，其中表示第i个S自由度分组特征，表示第j个所属肢体类别分组特征，F表示静态关节分组特征；

将每个自由度分组特征沿关节维度拼接，得到自由度分组的整体特征F，经过卷积核大小为4×3的二维卷积层Conv2dD进行特征提取，得到相应的聚合特征将沿关节维度进行拆分，得到第i个自由度分组特征的局部拓扑约束具体公式为：其中，σ表示GELU激活函数，Split表示沿着关节维度分割特征，表示第1个自由度分组特征，表示第2个自由度分组特征，表示第3个自由度分组特征，Concat表示拼接操作；

将每个所属肢体类别分组特征沿关节维度拼接，得到所属肢体类别分组的整体特征F ，经过卷积核大小为3×3的二维卷积Conv2dp进行特征提取，得到相应的聚合特征将沿关节维度进行拆分，得到第j个所属肢体类别分组特征的局部拓扑约束具体公式为：其中，表示第1个所属肢体类别分组特征，表示第2个所属肢体类别分组特征，表示第3个所属肢体类别分组特征，表示第4个所属肢体类别分组特征；

静态关节分组特征经过卷积核大小为5×3的二维卷积Conv2ds进行特征提取，得到静态关节分组聚合特征进而得到第k个静态关节分组特征的局部拓扑约束具体公式为：将所属肢体类别分组特征的局部拓扑约束与不同自由度分组特征的局部拓扑约束相结合，并基于权重参数，得到最终的混合拓扑约束，具体表达式为：Y＝(F+R)+F；

其中，ri,j表示第j个所属肢体类别分组特征中第i个自由度分组特征的混合特征，Wi,j表示与ri,j对应的初始化为0的学习参数，R表示最终的混合拓扑约束，concatorder表示按照顺序的拼接操作，F是融合后的中间特征，Y表示添加混合拓扑约束后的结果。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述基于增强型拓扑感知网络的三维人体姿态估计方法的步骤。

7.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至5中任一项所述的基于增强型拓扑感知网络的三维人体姿态估计方法。