1.一种基于多视图融合的人体三维姿态估计方法,其特征在于,具体工艺过程为:S1、输入多视图关节点热图
将相机1和相机2拍摄的照片分别通过预训练的多级CNN网络输入关节点热图序列H1和H2;
S2、多视图热图融合
首先,通过预训练的空间转移网络STN将相机2的关节点热图序列H2中的每一张热图进行空间变换,然后,将空间变换后的关节点热图序列通过全连接层FC,输出结果与相机1的关节点热图序列H1按照序列顺序逐张逐像素相加,得到相机1融合后的关节点热图序列;
S3、人体三维姿态和相机外参估计
将融合后的关节点热图序列H1和H2分别通过可微分空间转数字模块DSNT,得到融合后的人体二维姿态1和2,将人体二维姿态1和2、相机1和2的内参参数进行串联,作为多层感知机MLP的输入层,预测得到人体三维姿态和相机外参;
S4、三维‑二维投影
利用估计出的相机外参和相机内参,将三维姿态投影到二维图像平面上,得到新的人体二维姿态;
S5、构造损失函数
分别构建人体二维姿态损失函数和人体三维姿态损失函数;
S6、模型训练
选用Human3.6M数据集作为训练数据源,将同一时刻任意选定的相机1和相机2拍摄的同一个目标人物的图片及其对应的相机内参、真实的2D姿态、真实的3D姿态构成一组训练数据,以每5组训练数据作为一次训练的输入数据量,冻结多级CNN和空间转移网络STN参数,根据步骤S5构造的两个损失函数,求解其梯度,反向修正网络参数,直至损失值下降并趋于稳定,结束模型训练;
S7、模型测试
选取未知架设位置和角度的两台能够拍摄到完整人体目标的相机,已知相机内参,将同时拍摄的一组图片作为模型输入,输出得到估计出的人体三维姿态。
2.根据权利要求1所述的基于多视图融合的人体三维姿态估计方法,其特征在于,步骤S1涉及的预训练的多级CNN网络结构为openpose网络中的多级CNN,修改了训练的输入关节点,以及每一级CNN输出的关节点热图和关节响应场数量。
3.根据权利要求1所述的基于多视图融合的人体三维姿态估计方法,其特征在于,步骤S2涉及的融合后的关节点热图序列公式为:其中,i∈[1,H×W],j∈[1,H×W],p∈[1,17],H为单个关节点热图的高,W为单个关节点热图的宽, 为相机1的第p个关节点热图中第i个位置的热力值, 为融合后的相机1的第p个关节点热图中第i个位置的热力值, 为相机2的第p个关节点对应热图中第i个位置的热力值, 为融合后的相机2的第p个关节点热图中第i个位置的热力值, 为相机
2的第p个关节点对应热图中第i个位置对于相机1的第p个关节点对应热图中第j个位置的关联权重, 为相机1的第p个关节点对应热图中第i个位置对于相机2的第p个关节点对应热图中第j个位置的关联权重。
4.根据权利要求1所述的基于多视图融合的人体三维姿态估计方法,其特征在于,步骤S3涉及的多层感知机MLP包含4层:大小为76的输入层、大小为128的第一个隐含层、大小为
78的第二个隐含层和大小为78的输出层。
5.根据权利要求1所述的基于多视图融合的人体三维姿态估计方法,其特征在于,步骤S5涉及的人体二维姿态损失函数为:其中, 和 分别为融合后的热图估计出的第p个关节点投影到相机1和相机2的二维图像上x方向的坐标,up_1和up_2分别为第p个关节点在相机1和相机2的二维图像上真实的x方向的坐标, 和 分别为融合后的热图估计出的第p个关节点投影到相机1和相机2的二维图像上y方向的坐标,vp_1和vp_2分别为第p个关节点在相机1和相机2的二维图像上真实的y方向的坐标。
6.根据权利要求1或5所述的基于多视图融合的人体三维姿态估计方法,其特征在于,步骤S5涉及的人体三维姿态损失函数为:其中, 为融合后的热图估计出的第p个关节点在世界坐标系下x方向的坐标,xp为第p个关节点在世界坐标系下真实的x方向的坐标, 和 为融合后的热图估计出的第p个关节点在世界坐标系下y和z方向的坐标,yp和zp为第p个关节点在世界坐标系下真实的y和z方向的坐标。
7.根据权利要求2所述的基于多视图融合的人体三维姿态估计方法,其特征在于,修改后的输入关节点包括尾椎、左髋、右髋、左膝、右膝、左脚踝、右脚踝、脊柱、胸、脖子、头、左肩、右肩、左手肘、右手肘、左手腕和右手腕共17个;修改后的每一级CNN输出的关节点热图数量为18,包括17张关节点热图和1张背景热图;修改后的每一级CNN输出的关节响应场数量为36,包括每个关节响应场的x和y两个方向的值。
8.根据权利要求4所述的基于多视图融合的人体三维姿态估计方法,其特征在于,输入层包括:融合后的人体二维姿态,两个人体二维姿态的17个关节点的x和y两个坐标值,以及每个相机的内参,每个相机的外参个数为4。
9.根据权利要求4所述的基于多视图融合的人体三维姿态估计方法,其特征在于,输出层包括:人体三维姿态的17个关节点的x、y和z三个坐标值,以及两个相机的外参,每个相机的外参个数为3*4=12。