利索能及
我要发布
收藏
专利号: 2020111007353
申请人: 合肥工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种从视频中估计三维人体姿态的方法,其特征在于,包括

获取连续视频帧序列,基于第一神经网络模型提取单帧的人物姿态,得到每一帧的初始化二维人体关节;

获取连续N帧初始化二维人体关节,基于第二神经网络模型提取N帧初始化二维人体关节的三维人体关节估计,得到初始化三维人体关节;

获取连续M帧的初始化二维人体关节,基于第三神经网络模型对M帧的初始化二维人体关节进行三维关节滤波,得到关于初始化二维人体关节的三维人体关节滤波器;

利用三维人体关节滤波器,对初始化三维人体关节进行去噪,得到去噪后三维人体关节;

所述去噪后三维人体关节的训练目标是二次优化的51通道BVH人体优化姿态;

所述BVH人体优化姿态由BVH人体未优化姿态经过骨骼优化得到;

所述BVH人体未优化姿态含有78个通道,通过去除无用的骨骼旋转通道和初始化三维坐标,得到51个骨骼旋转通道的51通道BVH人体优化姿态;

所述第二神经网络模型包括第二主框架网络和第二损失函数;

所述第二主框架网络包括关节扩充层、帧间关节关联捕捉层、帧间关节关联提取层和输出层;

所述关节扩充层包括对二维人体关节的关节数扩充处理,并将扩充后的关节数依次输入至帧间关节关联捕捉层和帧间关节关联提取层,所述帧间关节关联捕捉层和帧间关节关联提取层对扩充后的人体关节进行多帧之间的关联性捕捉并提取,对多帧二维人体关节之间的关联性提取后输入至输出层,得到关于多帧二维人体姿态的初始化三维人体关节,所述初始化三维人体关节的训练目标是51通道BVH人体优化姿态、根节点三维坐标与51通道的三维骨骼坐标的叠加;

在所述51通道BVH人体优化姿态中采用欧拉角描述骨骼旋转,所述第二损失函数采用一致匹配的误差抵消计算单元获取骨骼旋转估计结果θestimation与骨骼旋转标签数据θlabel之间的差别d:基于骨骼旋转的差别确定后,第二损失函数引入基于高斯分布来快速寻找到人体姿态正确的骨骼旋转,将第二损失函数确定为:所述第三神经网络模型包括第三主框架网络和第三损失函数,

所述第三主框架网络包括关节扩充层、帧间关节噪音捕捉层、帧间关节噪音提取层和输出层;

所述关节扩充层包括对二维人体关节的关节数扩充处理,并将扩充后的关节数依次输入至帧间关节噪音捕捉层和帧间关节噪音提取层,所述帧间关节噪音捕捉层和帧间关节噪音提取层对扩充后的人体关节进行多帧之间的噪音捕捉并提取,对多帧二维人体关节之间的噪音提取后输入至输出层,得到关于多帧二维人体姿态的去噪后三维人体关节,所述第三神经网络模型的训练目标是二次优化的51通道BVH人体优化姿态;

所述二次优化的51通道BVH人体优化姿态是对51通道BVH人体优化姿态的51个旋转通道二次优化得到,包括:步骤一、缩小θ取值范围,令θ′=θmod360,使θ′∈[0°,360°),1

步骤二、若通道i首帧θi ′>180°,将通道i每帧取值减去360°,即通道i第j帧步骤三、计算通道i第j,第j+1帧误差E,其中步骤四、若E≤180°,不做处理,反之,将 扩大或缩小360°,步骤五、重复上述步骤三和步骤四,直到对于 都有E≤180°,其中,输入是未处理的BVH旋转通道θ,输出是处理后的BVH旋转通道θ″,第三神经网络模型的优化目标是让滤波后结果与标签数据在数值上接近,上述的二次优化根据欧拉角θ的周期性得到;

经过滤波网络处理后最终结果为三部分的组合:未经滤波的坐标通道、无需滤波的个别通道、滤波后的多数通道;

所述第三损失函数使用MSE描述距离,记滤波后结果为θfiltered,标签数据为θlabel,此时:所述第二主框架网络和第三主框架网络为相同网络;

第二主框架网络关节扩充层获取初始化二维人体关节,经过卷积核进行人体关节扩充,帧间关节关联捕捉层、帧间关节关联提取层是在空洞卷积作用下对扩充的人体关节进行帧间的关联性获取,实现输入帧之间的关节关联性提取;

输出层采用数据降维输出,形成具有帧间关联的初始化三维人体关节;

第三主框架网络关节扩充层获取初始化二维人体关节,经过卷积核进行人体关节扩充,帧间关节噪音捕捉层、帧间关节噪音提取层上是在空洞卷积作用下对扩充人体关节进行帧间的噪音捕捉并提取;

输出层采用数据降维输出,形成具有适应于第二主框架网络输出的噪音提取的三维人体关节滤波器。

2.根据权利要求1所述的从视频中估计三维人体姿态的方法,其特征在于:所述第一神经网络模型对视频处理后得到二维坐标点,将该二维坐标点分别输入至第二神经网络模型和第三神经网络模型当中,并利用不同的标签数据进行监督学习分别得到初始化三维人体关节和三维人体关节滤波器。

3.根据权利要求1所述的从视频中估计三维人体姿态的方法,其特征在于:所述第一神经网络模型对视频处理后得到初始化二维人体关节;

将初始化二维人体关节分别输入至第二神经网络模型和第三神经网络模型当中,分别得到初始化三维人体关节和三维人体关节滤波器;

其中,第二神经网络模型含有一致匹配的误差抵消计算单元获取的骨骼旋转损失函数,第三神经网络模型含有二次优化的51通道BVH人体优化姿态的标签数据;

将初始化三维人体关节和三维人体关节滤波器进行卷积处理,得到去噪后三维人体关节;

其中,将第二神经网络模型输出的初始化三维人体关节与第三神经网络模型输出的三维人体关节滤波器帧数保持一致,并将初始化三维人体关节的一组三维坐标进行去除,将三维人体关节滤波器对得到的初始化三维人体关节为51个骨骼旋转通道进行滤波。

4.根据权利要求3所述的从视频中估计三维人体姿态的方法,其特征在于:所述将初始化二维人体关节分别输入至第二神经网络模型和第三神经网络模型,分别得到初始化三维人体关节和三维人体关节滤波器包括:第二神经网络模型获取27个连续初始化二维人体关节,得到一帧105个通道的初始化三维人体关节,105个通道包含51个通道的三维人体关节坐标和51通道BVH人体优化姿态;

第三神经网络模型获取57个连续初始化二维人体关节,得到31帧51个通道的三维人体关节滤波器,所述第三神经网络模型采用滑窗对连续输入帧进行获取,滑窗大小为27,接受域为57,即输入了57帧拥有17个坐标点的初始化二维人体关节,得到31帧通道数51的三维人体关节滤波器;

所述将初始化三维人体关节和三维人体关节滤波器进行卷积处理,得到去噪后三维人体关节包括:获取第二神经网络模型的输出的初始化三维人体关节的31个连续帧,并将该31个连续帧的根节点三维坐标进行去除,从而得到31帧51通道BVH人体优化姿态,即含噪声初始化三维人体关节;

利用31帧通道数51的三维人体关节滤波器对该含噪声初始化三维人体关节进行卷积去噪,得到1帧通道数51的去噪后三维人体关节,即平滑的BVH格式人体优化姿态。