1.一种人体姿态估计方法,其特征在于,包括:
获取目标人体框数据;
将所述目标人体框数据输入特征提取网络,确定细粒度特征;所述特征提取网络采用金字塔Transformer作为主干网络,并将主干网络中产生的中间特征图通过局部信息增强模块进行处理;
利用细粒度融合机制对细粒度特征进行跨层特征校正,得到融合特征;
利用坐标信息交互模块对所述融合特征进行跨轴信息互补,得到基于人体各个关节和部位在空间中相对位置的坐标信息;
根据人体关键点的坐标信息进行组合连接,得到人体姿态估计结果;所述人体关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝;
所述将所述目标人体框数据输入特征提取网络,确定细粒度特征,具体包括:将所述目标人体框数据输入主干网络,经四个阶段进行处理,形成分辨率由高到低的特征金字塔;其中,每个阶段通过空间缩减块根据设定值逐步压缩特征图的分辨率并扩展通道数;各所述阶段的分辨率依次为输入图像的 和将所述特征金字塔输入局部信息增强模块进行处理,输出增强特征:fout=Conv(Concat(f1′,f3+f2′)).
其中,Conv表示卷积处理,Concat表示将两个张量沿着通道层合并处理,f1′表示小尺度特征,f2′表示中大尺度特征,f3表示经过上下文依赖权重精细化后的中大尺度特征;
所述利用细粒度融合机制对细粒度特征进行跨层特征校正,得到融合特征,具体包括:对于主干网络输出的特征和局部信息增强模块输出的特征沿着通道维度相加,然后通过全局池化操作确定一维上下文信息,并生成通道描述符;
将所述通道描述符送入多层感知机进行融合计算,得到融合特征:F″=λ1·F4+λ2·fout.
其中,F″表示融合主干网络输出的特征F4和局部信息增强模块输出的特征fout后的特征,λ1和λ2是两个二维权重,两个权重的确定方法为:基于不同粒度信息空间的全局信息和通道相关性,自适应地为不同粒度分配权重;
所述利用坐标信息交互模块对所述融合特征进行跨轴信息互补,得到基于人体各个关节和部位在空间中相对位置的坐标信息,具体包括:将所述融合特征通过三个不同尺度的一维卷积层分别处理图像的轴向信息,得到水平轴上的轴向信息和垂直轴上的轴向信息;
利用交叉运算将所述水平轴上的轴向信息和所述垂直轴上的轴向信息进行交互,分别得到沿水平轴交互后的信息FH和沿垂直轴交互后的信息FV,并计算基于人体各个关节和部位在空间中相对位置的坐标信息:Fout=Conv1×1(FV)+Conv1×1(FH)+F″.
其中,F″表示融合特征,Conv1×1表示一维卷积。
2.根据权利要求1所述的人体姿态估计方法,其特征在于,所述根据人体关键点的坐标信息进行组合连接,得到人体姿态估计结果,具体包括:将坐标信息交互模块输出的大小为 的坐标信息Fout展平为嵌入向量其中,N表示人体关键点的数量,H表示特征图高度,W表示特征图宽度,表示实数域;
对每个人体关键点的嵌入向量分别应用两次线性投影,对水平坐标和垂直坐标的信息进行编码,并将编码结果输入到坐标分类器中,以解码人体关键点的水平坐标和垂直坐标;
通过组合连接N个人体关键点的坐标对,得到人体姿态估计结果。
3.一种人体姿态估计系统,应用如权利要求1‑2中任一项所述的方法,其特征在于,包括:数据采集单元,用于获取目标人体框数据;
特征提取单元,用于将所述目标人体框数据输入特征提取网络,确定细粒度特征;所述特征提取网络采用金字塔Transformer作为主干网络,并将主干网络中产生的中间特征图通过局部信息增强模块进行处理;
特征校正单元,用于利用细粒度融合机制对细粒度特征进行跨层特征校正,得到融合特征;
信息互补单元,用于利用坐标信息交互模块对所述融合特征进行跨轴信息互补,得到基于人体各个关节和部位在空间中相对位置的坐标信息;
人体姿态估计单元,用于根据人体关键点的坐标信息进行组合连接,得到人体姿态估计结果;所述人体关键点包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左髋、右髋、左膝、右膝、左踝和右踝。
4.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1‑2中任一项所述的人体姿态估计方法。
5.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1‑2中任一项所述的人体姿态估计方法。