买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于Transformer时空特征增强型的人体姿态估计方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于Transformer时空特征增强型的人体姿态估计方法

面议

专利号： 2023102897947

申请人：浙江理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于Transformer时空特征增强型的人体姿态估计方法，包括如下步骤：(1)获取大量含有人物的图片，并对图片中人物的关节点位置进行标注；

(2)构建CSIT网络模型框架，其包括骨干网络、通道特征编码器、空间特征编码器、Transformer模块以及一维向量回归模块，其中：所述骨干网络用于对输入的图片进行特征提取；

所述通道特征编码器用于将提取得到的特征图从通道维度展开并进行序列长度的压缩，输出Channel Embeddings；

所述空间特征编码器用于将提取得到的特征图从空间维度展开并进行序列长度的压缩，输出Spatial Embeddings；

Channel Embeddings和Spatial Embeddings经过位置编码后连同可学习的Keypoints Embeddings沿通道维度拼接后输入至Transformer模块，Keypoints Embeddings通过随机初始化生成，其通道数为关节点数量M；

所述Transformer模块用于对输入进行编码，从而输出M个通道的特征向量；

所述一维向量回归模块用于对这M个通道的特征向量进行解码，从而输出各关节点位置坐标的预测结果；

(3)利用步骤(1)中获取的图片及其标注信息对上述模型框架进行训练；

(4)将包含人物的待估计图片输入至训练好的模型中，即可预测出该图片中人物各关节点的位置坐标。

2.根据权利要求1所述的人体姿态估计方法，其特征在于：所述骨干网络采用基于HRNetW48结构的多层卷积神经网络，输入图片经过多层卷积神经网络的特征提取后，输出R×H2×W2大小的特征图，其中R为通道数量，H2＝H/4，W2＝W/4，W和H分别为输入图片的宽度和高度。

3.根据权利要求2所述的人体姿态估计方法，其特征在于：所述通道特征编码器将R×H2×W2大小的特征图展平成R×Lc大小后送入线性层中进行处理并生成Channel Embeddings，Lc＝H2×W2；线性层用于进一步减小特征向量的长度Lc，以求在保留细粒度特征信息的情况下减少内存占用。

4.根据权利要求2所述的人体姿态估计方法，其特征在于：所述空间特征编码器首先对R×H2×W2大小的特征图进行切分，即将每个通道的特征图切分成C个Ph×Pw大小的Patch，其中Ph＝H2/Rh，Pw＝W2/Rw，C＝Rh×Rw且C＝R；然后将每个Patch展平后沿着通道维度进行拼接得到C×Ls大小的特征矩阵，Ls＝Ph×Pw×R，最后将特征矩阵送入线性层中进行处理完后生成Spatial Embeddings，线性层用于进一步减小特征向量的长度Ls，以求在保留细粒度特征信息的情况下减少内存占用。

5.根据权利要求1所述的人体姿态估计方法，其特征在于：所述Transformer模块由多层编码结构级联组成，每一层编码结构由正则化层L1、多头自注意力机制层、正则化层L2、多层感知机MLP依次连接组成，其中正则化层L2的输入为多头自注意力机制层的输出与正则化层L1的输入叠加而成，多层感知机MLP的输出与正则化层L2的输入叠加后作为编码结构的输出。

6.根据权利要求5所述的人体姿态估计方法，其特征在于：所述多头自注意力机制层由多个Self‑Attention组成，每个Self‑Attention将多头自注意力机制层的输入分别与线性Q K V变换矩阵W、W 和W相乘对应得到查询向量矩阵Q、键向量矩阵K、值向量矩阵V，然后通过以下公式计算出Self‑Attention的输出结果，最后将多个Self‑Attention的输出结果拼接后经过线性层即得到多头自注意力机制层的输出；

其中：Attention(Q,K,V)为Self‑Attention的输出结果，s为查询向量矩阵Q的列数，表示转置。

7.根据权利要求1所述的人体姿态估计方法，其特征在于：所述一维向量回归模块将M个通道的特征向量分别通过水平轴坐标分类器和垂直轴坐标分类器，水平轴坐标分类器将各特征向量的长度降为kW对应得到向量X1,X2,…,XM，进而通过映射从中提取得到预测点横坐标垂直轴坐标分类器将各特征向量的长度降为kH对应得到向量Y1,Y2,…,YM，进而通过映射从中提取得到预测点纵坐标最后输出各关节点的预测坐标 W和H分别为输入图片的宽度和高度，i为自然数且1≤i≤M，k为大于1的缩放因子。

8.根据权利要求7所述的人体姿态估计方法，其特征在于：所述预测坐标的表达式如下：其中：σ为设定的标准差，为向量Xi中第p个元素值，为向量Yi中第q个元素值，p为自然数且1≤p≤kW，q为自然数且1≤q≤kH。

9.根据权利要求1所述的人体姿态估计方法，其特征在于：所述步骤(3)的具体实现方式如下：

3.1初始化模型参数，包括每一层的偏置向量和权值矩阵、学习率以及优化器；

3.2将含有人物的图片输入至模型，模型正向传播输出得到对应的预测结果即关节点位置坐标，计算该预测结果与标注信息之间的损失函数；

3.3根据损失函数利用优化器通过梯度下降法对模型参数不断迭代更新，直至损失函数收敛，训练完成。