1.一种自适应多视图和时序特征融合的单人三维姿态估计方法,其特征在于,包括以下步骤:步骤一、基于多相机的视频序列图片为输入,通过一个鲁棒的特征提取器来提取2D姿态特征;
步骤二、基于2D姿态特征为输入,在相机维度上设计了一种自适应的视图自注意力变换网络,通过相对相机位置编码和自注意力机制来融合任意数量的未标定相机下的二维姿态,获取多目融合的姿态特征;
步骤三、基于多目融合的姿态特征为输入,在时间维度上设计一种时序自注意力变换网络,通过自注意力机制自适应地融合多帧特征,获得最终的3D姿态。
2.根据权利要求1所述的一种自适应多视图和时序特征融合的单人三维姿态估计方法,步骤一中的特征提取器具体如下:第一步、给定N个相机下的视频序列,每个视频序列包含F帧图片,N×F帧图片共享同一特征提取器;每帧图片I宽为W,高为H,每帧图片I包含R,G,B三个颜色通道,是一个维度为W×H×3的三维矩阵空间;每张图片只包含一个人;
特征提取器包括2D姿态检测器和3D姿态特征提取器,对于每帧图片I,首先采用2D姿态检测器 预测2D姿态信息其中,关节的总数为J, P2D、C2D分别表示J个关节的2D坐标和置信度,pj为第j个关节的2D坐标,cj为第j个关节的置信度;
第二步、对于P2D和C2D,分别将J个关节按照人体关节运动相关性分为G组:其中,g∈{1,2,...,G}, 分别是P2D和C2D的第g个子集; 是一g g
个维度为2J 的一维矩阵空间; 是一个维度为J 的一维矩阵空间;其中g
表示第g组所有关节的索引,J为第g组关节的数量,pi和ci分别表示第i个关节的2D坐标和置信度;
第三步、3D姿态特征提取器首先使用第一个全连接层 将第g组2D关节坐标 映射为特征 是一个维度为C/2的一维矩阵空间;C表示组合G组关节的特征得到的全局特征的通道维度:
第四步、第二个全连接网络 输入 输出第g组关节的映射矩阵g
是一个维度为(C/2)×2J 的二维矩阵空间; 将 映射为通道数为C/2的特征 用于调制
第五步、对于G组中每一组来说,将 和 相加后,通过第g组的残差网络 进一步提取空间信息,得到第g组调节后的特征第六步、将G组特征 拼接在一起,通过第三个全连接层 映射为一个人的全局特征 是一个维度为C的一维矩阵空间;其中
1 2 G
Concat(f,f,…,f)表示将G组关节特征进行拼接;
将N×F帧图片的全局特征拼接得到所有图片的特征X,其中 是一个维度为C×N×F的三维矩阵空间。
3.根据权利要求1所述的一种自适应多视图和时序特征融合的单人三维姿态估计方法,其特征在于,步骤二中的视图自注意力变换网络由相对相机位置编码器和视图自注意力融合模块组成。
4.根据权利要求2所述的一种自适应多视图和时序特征融合的单人三维姿态估计方法,其特征在于,步骤二中的视图自注意力变换网络是由以下步骤获得的:步骤201、在相机维度上, 由N个相机特征 拼接组成,其中,v∈{1,2,...,N}, 是一个维度为C×F的二维矩阵空间; 为第v个相机的特征,由第v个相机下F帧图片的全局特征拼接得到;在相机特征融合过程中,时序维度F将省略,即简化为 v∈{1,2,...,N};
步骤202、视图自注意力变换网络首先通过神经网络自适应地学习相机之间的相对位置关系,输入第a个相机的查询变量 和第b个相机的键值变量 输出第a个相机和第b个相机之ab ab间的相对位置关系映射方阵M 和特征融合加权系数A ;其中,分别表示第a个和第b个相机特征; 是一个维度为D×D的二维矩阵空间; C=H×D;
其中, 和 是两个神经网络层,它们共享同一个残差网络用于获取 和ab ab
之间的关系特征;然后使用第四、五个全连接层分别输出M 和A ;
步骤203、改变第b个相机的数值特征 的形状,分成H个D维局部特征点 其中为第b个相机下改变形状后的数值特征; 是一个维度为ab
D×H的二维矩阵空间;然后通过M 对 进行线性映射,实现相对相机位置编码:其中, 表示第a个相机对b个相机特征进行相对相机位置编码后的特征;其中,N×N组相机特征组合 将得到编码后的特征 由N×N个 拼接得到,改变 的
形状后得到特征Vmap; 其中 分别是
维度为D×H×N×N的四维矩阵空间和维度为C×N×N的三维矩阵空间;
ab ab
步骤204、A={A |a∈{1,2,...,N},b∈{1,2,...,N}}表示N×N个融合系数A 组成的融合系数矩阵;通过随机屏蔽策略,随机将A中部分融合系数置为0,以改变参与融合的相机数量;
步骤205、使用经过随机屏蔽的A,对Vmap进行加权融合,得到多视图融合后的特征Vfuse,是一个维度为C×N的二维矩阵空间:Vfuse=sum((softmax(A)⊙Vmap)),其中,softmax(*)表示归一化指数函数,对融合系数矩阵A的第三个维度进行归一化,⊙表示点乘,sum(*)表示在第三个维度融合N个相机的特征。
5.根据权利要求1所述的一种自适应多视图和时序特征融合的单人三维姿态估计方法,其特征在于,步骤三中的时序自注意力变换网络由编码模块和两层特征融合模块组成。
6.根据权利要求4所述的一种自适应多视图和时序特征融合的单人三维姿态估计方法,其特征在于,步骤三中的时序自注意力变换网络通过以下步骤实施的:步骤301、在时序特征融合过程中,省略相机维度N,时序自注意力变换网络的编码模块首先通过第六个全连接层 对Vfuse进行特征编码:其中, 为特征编码后的特征;
步骤302、然后编码模块采用cos和sin函数构造序列位置编码 对Z进行位置编码,编码过程如下:0
Z=Z+Pemb,
其中, 为位置编码后的特征;
步骤303、时序自注意力变换网络包含两层基于自注意力机制的特征融合模块;m∈{1,
2}为特征融合模块层数的索引,第m层特征融合过程为:其中, 和 分别是通过第七、八、九个全连接层和 对m‑1层的时序特征 进行映射得到的查询向量、键值向量和数值向量;FFN(*)为带有残差连接的多层感知机; 为第m层的时序融合特征,其中第一层融合模块的输入特征步骤304、最后通过第十个全连接层 回归N个相机下每个视频序列的中间帧的3D姿态P3D,其中 是一个维度为3J×N的二维矩阵空间: