买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于时空transformer的轻量级三维人体姿态估计方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于时空transformer的轻量级三维人体姿态估计方法及系统

￥24000

专利号： 2023100302759

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

更新日期：2026-03-05

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，获取待估计视频，将待估计视频输入到训练好的轻量级三维人体姿态估计模型，得到三维人体姿态序列结果，完成姿态估计；所述轻量级三维人体姿态估计模型包括预处理模块、时空编解码模块、时空下采样模块和主干网络时空transformer模块；

其中，轻量级三维人体姿态估计模型的训练过程包括以下步骤：

S1.获取原始视频数据，通过二维姿态估计器提取原始视频数据的二维人体关节点坐标序列，并采用预处理模块对二维人体关节点坐标序列进行预处理；

S2.采用时空编解码模块捕获预处理后的二维人体关节点坐标序列的时空关系，得到时空信息序列；

S3.构建自监督损失函数，对时空信息序列和预处理后的二维人体关节点坐标序列进行自监督损失计算；

S4.采用时空下采样模块对时空信息序列下采样得到稀疏二维人体关节点坐标序列；

S5.通过主干网络时空transformer模块对稀疏二维人体关节点坐标序列进行时空域依赖建模，并对时空域依赖建模结果升维得到三维姿态序列；

S6.将三维姿态序列与其对应原始视频的三维人体关节点序列标注信息进行损失求解，迭代训练直至收敛。

2.根据权利要求1所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，对二维人体关节点坐标序列进行预处理的过程包括：S11.采用COCO数据集对二维姿态估计器CPN进行预训练；

S12.采用Human3.6数据集对预训练完成的二维姿态估计器CPN进行微调，得到训练好的二维姿态估计器CPN；

S13.将原始视频逐帧输入到二维姿态估计器CPN中，得到对应的二维人体关节点坐标序列；

S14.将二维人体关节点坐标序列展平为一维人体关节点坐标向量，在一维人体关节点坐标向量中嵌入包含关节点间相对位置的位置编码，得到预处理后的二维人体关节点坐标序列。

3.根据权利要求1所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，时空编解码模块包括时空掩码单元、时空编码单元和时空解码单元；通过时空掩码单元对预处理后的二维人体关节点坐标序列进行随机掩码，得到时间掩码序列和空间掩码序列，采用时空编码单元处理空间掩码序列，将时空编码单元的输出与时间掩码序列拼接得到时空掩码序列；时空解码单元对时空掩码序列进行解码处理得到恢复序列，通过自监督的方式建立恢复序列与原始输入序列的关系，得到具有时空信息的二维人体关节点序列。

4.根据权利要求3所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，时间编码器的结构包括依次级联的第一transformer层和LayerNorm层；空间编码器的结构包括依次级联的第一Conv1d层、第一BatchNorm1d层、ReLU层、Dropout层、线性层和第二Conv1d层；时空解码器单元的结构包括依次级联的第二transformer层、第二BatchNorm1d层和第三Conv1d层。

5.根据权利要求3所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，假设预处理后的二维人体关节点坐标序列共有T帧，采用时空掩码单元进行随机掩码的具体过程包括：在预处理后的二维人体关节点坐标序列中随机选取0.75T帧进行时间域上的随机掩码得到时间掩码序列，并采用可学习标记TM替代时间掩码序列中被掩码的帧；

将未被选取的0.25T帧作为第二时间掩码序列，在空间域上对第二时间掩码序列进行随机掩码，即在第二时间掩码序列的每一帧内随机选取2个人体关节点进行掩码，并采用可学习标记SM替代被掩码的人体关节点得到空间掩码序列。

6.根据权利要求1所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，自监督损失函数表示为：T1表示预处理后的二维人体关节点坐标序列的序列总数，fall表示当前输入到时空编解码模块的一个预处理后的二维人体关节点坐标序列；t表示fall中的第t帧；Xmasked表示预处理后的二维人体关节点坐标序列fall通过时空编码器单元后得到的序列；Zt表示时空编码器单元输出的序列Xmasked经过时空解码器单元后得到的序列的第t帧；p(Zt|Xmasked)表示给定Xmasked的前提下得到Zt的条件概率；Et表示Zt与fall的平均欧式距离。

7.根据权利要求1所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，主干网络时空transformer包括基于人体关节点的空间transformer和基于时间帧的时间transformer；通过主干网络时空transformer对稀疏二维人体关节点坐标序列进行时空域依赖建模，包括：S51.对稀疏二维人体关节点坐标序列中每一帧的人体姿态进行线性映射，得到每一帧的人体姿态映射向量，并在每一帧的人体姿态映射向量中加入该帧人体姿态的空间位置编码，得到每一帧的人体姿态初始向量，再将每一帧的人体姿态初始向量拉平为一维得到每一帧的初始人体姿态标记；

S52.采用空间transformer对每一帧的初始人体姿态标记进行空间上的依赖建模，得到每一帧包含人体关节点间关系的人体姿态标记；

S53.在每一帧包含人体关节点间关系的人体姿态标记中加入该帧人体姿态的时间位置编码，得到每一帧的人体姿态最终向量；

S54.通过时间transformer处理所有帧的人体姿态最终向量得到二维姿态序列，对二维姿态序列进行升维得到三维姿态序列。

8.根据权利要求1所述的一种基于时空transformer的轻量级三维人体姿态估计方法，其特征在于，S6中损失计算的公式为：其中，T2表示升维后的稀疏二维人体关节点坐标序列的总帧数，t表示升维后的稀疏二维人体关节点坐标序列的第t帧，表示原始视频的三维人体关节点序列中第t帧的标注信t息，P表示三维姿态序列的第t帧。

9.一种基于时空transformer的轻量级视频三维人体姿态估计系统，其特征在于，包括：数据获取模块，用于获取待测人体姿态视频序列；

数据预处理模块，用于提取待测人体姿态视频序列中的二维人体关节点坐标序列，并进行预处理；

时空信息交互模块包括自监督时空编解码模块、时空下采样模块和时空transformer模块；

自监督时空编解码模块，用于捕获预处理后的二维人体关节点坐标序列的时空关系，得到时空信息序列；；

时空下采样模块，用于对时空信息序列下采样得到稀疏二维人体关节点坐标序列；

时空transformer模块，用于对稀疏二维人体关节点坐标序列进行时空域依赖建模，并对时空域依赖建模结果升维得到三维姿态序列；

估计输出模块，用于输出待测人体姿态视频序列的三维人体姿态序列。