利索能及
我要发布
收藏
专利号: 2022102143201
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Transformer的人体姿态估计方法,其特征在于:包括

特征提取模块,所述特征提取模块用于对输入图像实现局部特征提取,得到初级特征图像;

特征交互模块,所述特征交互模块用于对输入图像实现全局特征交互,得到交互特征图像;

特征恢复模块,所述特征恢复模块用于对交互特征图像进行特征恢复,得到预测特征图像;

将预测特征图像作为预测热图,与真值ground_truth关节点的热图进行计算,得到训练的损失值loss,实现梯度回传,完成特征提取模块、特征交互模块和特征恢复模块的训练。

2.根据权利要求1所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述特征提取模块包括残差网络、压缩卷积Con‑Red以及姿态注意力机制单元SA;

其中所述残差网络由多个残差Res组成,多个所述残差Res前后串联;

所述残差网络对输入图像特征的宽度W、高度H、通道C进行第一次采样,实现宽度W、高度H的第一次下采样,实现通道C的第一次上采样;

所述压缩卷积Con‑Red由两个卷积组成,第一个卷积的卷积核大小为3×3,第二个卷积的卷积核大小为1×1,利用压缩卷积Con‑Red接在所述残差网络之后,对第一次采样的图像特征进行第二次采样,实现宽度W、高度H的第二次下采样,实现通道C的第二次上采样;

所述姿态注意力机制单元SA插入在所述残差网络内,对残差网络内的通道C进行关注。

3.根据权利要求2所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述姿态注意力机制单元SA包括转换层、softmax激活层、sigmoid激活层和多个1×1的卷积;

所述残差网络的每个残差Res包含多层卷积,每个残差Res内的第一层卷积C_1后均插入有所述姿态注意力机制单元SA;

姿态注意力机制单元SA获取到每个残差Res内第一个卷积C_1的输出Cr×Hr×Wr,利用两个1×1的卷积分别对输出的通道数Cr下降到为1和1/2Cr,保持特征的高度Hr和宽度Wr不变,得到两个并行处理的管道G_1和管道G_2,管道G_1和管道G_2输出特征分别为1×Hr×Wr和Cr/2×Hr×Wr;

利用转换层分别对两个并行处理的管道G_1和管道G_2进行维度转换,对其中管道G_1的特征维度保持三维,使其特征高度Hr和宽度Wr合成同一维度,得到特征维度为HrWr×1×

1;对另外一管道G_2的特征维度由三维转换为二维,并将特征高度和宽度合成同一维度,通道数为1/2Cr,得到特征Cr/2×HrWr;

利用1×1的卷积对管道G_2的特征Cr/2×HrWr进行计算,利用softmax激活层对另一管道G_1的特征HrWr×1×1进行计算,将两者计算的值进行叉乘计算,并经sigmoid激活层输出,得到一个三维特征,该三维特征的通道数与残差网络内第一个卷积的输出的通道数Cr相同,特征的高度和宽度均为1,特征为Cr×1×1;

将所述姿态注意力机制单元SA的输出对每个残差Res内第一个卷积C_1的输出Cr×Hr×Wr进行通道Cr关注,实现对所述残差网络内的特征通道Cr进行关注;提高初级特征图像的特征通道的关注度。

4.根据权利要求1‑3任一所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述特征提取模块与特征交互模块之间设置有特征交融模块;

所述特征交融模块包括三个并行的通道特征单元,分别为第一通道特征单元T_1,第二通道特征单元T_2,第三通道特征单元T_3;三个并行的通道特征单元的特征维度均为三维;

三个并行的通道特征单元均包括卷积层,每个通道特征单元的卷积层设置不同;

所述第一通道特征单元T_1,卷积层的卷积核大小为1×1,步长为1,保持特征大小与初级特征图像相同;

所述第二通道特征单元T_2,卷积层的卷积核大小为3×3,步长为1,对初级特征图像的特征大小进行一次下采样,改变初级特征图像的特征大小,使其宽度和高度为初级特征图像的一半,通道为初级特征图像的两倍;

所述第三通道特征单元T_3,卷积层的卷积核大小为5×5,步长为2,对初级特征图像的特征大小进行二次下采样,改变初级特征图像的特征大小,使其宽度和高度为初级特征图像的四分之一,通道为初级特征图像的四倍;

将三个并行的通道特征单元相互交融:将第三通道特征单元T_3上采样到与第一通道特征单元T_1特征大小相同,并与第一通道特征单元T_1相加;将第二通道特征单元T_2上采样到与第一通道特征单元T_1特征大小相同,并与第一通道特征单元T_1相加;

经过将三个并行的通道特征单元相互交融后,所述特征交融模块对初级特征图像处理完毕,得到交融特征图像;

所述交融特征图像与所述初级特征图像的特征大小相同。

5.根据权利要求4所述的一种基于Transformer的人体姿态估计方法,其特征在于:还包括特征转换模块;

所述特征转换模块设置在所述特征交融模块与特征交互模块之间;

所述特征转换对交融特征图像的特征维度进行转换:对交融特征图像的三维特征转换为二维特征,将交融特征图像的宽和高相乘作为二维特征的第一维,将交融特征图像的通道数作为第二维;

其中,将所述二维特征的第一维中的宽和高的值,设置为输入图像的高和宽的1/16;

得到转换特征图像;

对所述特征转换模块得到的转换特征图像进行位置编码,得到编码后的编码特征图像。

6.根据权利要求5所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述特征交互模块包括多头注意力单元、前馈单元和三个大小一致的计算符组成;其中,所述前馈单元包括线性层;

所述三个大小一致的计算符由所述编码特征图像得到,分别为:第一计算符M,第二计算符N,第三计算符Q;

将三个所述计算符送入多头注意力单元,利用以下方式得到多头注意力矩阵:对第二计算符N进行转置,获取第二计算符N的转置计算符,将第二计算符N的转置计算符与第一计算符M相乘,再进行尺度缩放,利用softmax激活对尺度缩放结果进行得分计算,得到计算符分值,再将计算符分值与第三计算符Q计算,得到所述多头注意力矩阵;

将所述转换特征图像与所述多头注意力矩阵相加得到注意力分配特征图像,再将注意力分配特征图像送入前馈单元,利用所述前馈单元中的线性层对注意力分配特征图像进行特征线性转换输出,并与注意力分配特征图像相加得到交互特征图像。

7.根据权利要求5所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述特征恢复模块由两个连续的反卷积单元组成,其中两个反卷积单元的参数保持一致;

利用所述反卷积单元对交互特征图像的进行反卷积之前,将所述交互特征图像的特征维度与输入图像对应的真值ground_truth对齐;

通过反卷积单元对交互特征图像进行恢复,使其与真值ground_truth计算损失,完成模型训练。

8.一种基于Transformer的人体姿态估计系统,利用如权利要求5所述的一种基于Transformer的人体姿态估计方法,其特征在于:所述系统包括特征提取模块,特征交融模块,特征转换模块,特征交互模块和特征恢复模块,所述特征交融模块,特征转换模块,特征交互模块和特征恢复模块依次连接。

9.根据权利要求8所述的一种基于Transformer的人体姿态估计系统,其特征在于:还包括位置编码模块,所述位置编码模块连接在特征转换模块和特征交互模块之间;

其中,

所述特征提取模块用于对输入图像实现局部特征提取,得到初级特征图像;

所述特征交融模块利用三个并行的通道特征单元对初级特征图像相互交融,得到交融特征图像;

所述特征转换模块对交融特征图像的特征维度进行转换,得到转换特征图像;

所述位置编码模块对转换特征图像进行位置编码,得到编码特征图像;

所述特征交互模块用于对编码特征图像实现全局特征交互,得到交互特征图像;

所述特征恢复模块用于对交互特征图像进行特征恢复,得到预测特征图像;

利用所述预测特征图像作为预测热图,与真实关节点的热图进行计算,得到训练的损失值loss,实现梯度回传,完成特征交融模块、特征转换模块、位置编码模块、特征交互模块和特征恢复模块的训练。