利索能及
我要发布
收藏
专利号: 2022107082609
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种3D人体模型驱动的运动迁移方法,其特征在于,包括:以预先拍摄的视频帧为训练数据构建训练数据集,并提取训练数据的姿态;

将训练数据转换到UV空间,生成UV图,并以相邻视频帧之间的互补信息来构建并优化

3D人体模型;

然后将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型;

将保留了原始运动的3D信息的2D投影和训练数据的姿态作为运动图像生成模型的输入,并保存训练好的运动图像生成模型;

将目标人的姿态归一化;

最后将以目标人的姿态驱动的优化后的3D人体模型的2D投影和归一化后的目标人的姿态作为训练好的运动图像生成模型的输入进行最终的运动迁移。

2.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,采用姿态估计算法OpenPose提取训练数据的姿态。

3.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,利用DensePose将训练数据中的图像的像素转换到UV空间,生成对应的UV图,并以相邻视频帧之间的互补信息来构建并优化3D人体模型,包括:从训练数据中取一组相隔数帧的不同姿态的图像 和对应DensePose生成的UV图,然后通过UV转换生成一组局部纹理图 ,将生成的局部纹理图 输入到纹理填充网络中,生成一个具有多姿态纹理信息的纹理图 ,并通过损失函数对用纹理图 还原的一组“原始图像” 与一组真实图像 进行损失计算,实现对3D人体模型的优化。

4.根据权利要求3所述的3D人体模型驱动的运动迁移方法,其特征在于,所述损失函数表示为: 其中, , 由纹理图 还原得到,n表示还原的“原始图像”的个数,纹理图 由以下公式获得:

表示局部纹理图 的总个数, 表示由纹理填充网络生成的概率图,它预测了 上的像素点来自对应位置的 上像素点的概率; 由以下公式获得:其中, 表示 的第j行和第k列的元素, 表示 的第j行第k列的元素值,和 分别表示其中的一个元素值, 表示解码器的输出, 表示解码器输出的通道数,表示放大模块的放大系数;特别说明,还原的“原始图像”的个数n与局部纹理图的总个数 和解码器输出的通道数 在数量上是相等的。

5.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,所述将优化后的3D人体模型投影到2D平面,得到保留了原始运动的3D信息的2D投影,并以目标人的姿态驱动优化后的3D人体模型,包括:通过HMR预测3D人体模型的姿态,并将预测的姿态传递给

3D人体模型,从而实现对3D人体模型的驱动。

6.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,所述运动图像生成模型定义为Face‑Attention GAN模型;Face‑Attention GAN模型以GAN模型为基础,使用高斯分布来匹配椭圆人脸区域,并配置人脸增强损失函数,同时引入注意力机制,其中:通过设计均值和协方差矩阵来实现使用高斯分布匹配椭圆人脸区域,包括:图像面部区域的位置由姿态估计算法OpenPose确定, 是鼻子、眼睛和耳朵的位置;

椭圆的中心被设置为鼻子 的位置;椭圆的两个轴是协方差矩阵的特征向量,轴的长度是协方差矩阵的特征值;设定a和b是椭圆的两个轴,a和b都是单位向量,并且满足以下公式:其中, 是b的两个元素,特征向量a和b与协方差矩阵∑之间的关系如下:其中, , 是a对应的特征值, , 是b对应的特征值, 是椭圆的轴长,σ是缩放系数,a和b正交, 必然可逆;在以 为均值,∑为协方差的高斯分布中,在(1,1),(1,512),(512,1),(512,512)四个点构建的矩形区域内以距离间隔1均匀采样,获得面部增强高斯权重 ,并以生成的高斯权重 来定义人脸增强损失函数;

人脸增强损失函数如下:

其中, 表示姿态, 表示3D人体模型的2D投影,y表示真实图像, 表示和 输入到生成器G生成的图像, 表示由高斯分布匹配椭圆人脸生成的高斯权重;

引入的注意力机制包括通道注意力和空间注意力;最终的目标函数为:其中,G表示生成器,D表示鉴别器, 表示GAN模型的损失函数,表示通过minG和maxD使鉴别器可以准确的判断样本的真伪,以及生成器生成的样本可以通过鉴别器的判别,是个相互博弈的过程; 表示人脸增强损失函数,用于增强图像的面部区域; 表示特征匹配损失,用于保证图像内容的全局一致性;

表示感知重建损失,用于保证图像内容的全局一致性;参数 用于调整以平衡这些损失。

7.根据权利要求6所述的3D人体模型驱动的运动迁移方法,其特征在于,在引入的注意力机制中,采用基于鉴别器D的特征匹配损失,特征匹配损失如下:其中, 是鉴别器D的第i层特征提取器, 代表第i层的元素个数,T是鉴别器D的总层数;

然后将生成的图像和真实图像输入到预先训练好的VGG网络中,比较不同层的特征,感知重建损失如下:其中, 表示VGG网络的第i层特征提取器, 表示第i层中的元素数量,N是VGG网络的总层数。

8.根据权利要求1所述的3D人体模型驱动的运动迁移方法,其特征在于,将目标人的姿态归一化,具体为:使用训练集中的最大骨段长度来近似骨骼段的真实长度,新姿态的真实骨骼段长度也用同样的方式近似;然后,根据标准骨架和新骨架之间的比例调整图像中显示的骨段的长度;设 表示新姿态的第i个关节坐标, 表示其父关节坐标; 由进行调整,其中, 和 分别表示目标人图像和训练图像中第i个关节与其父关节之间的最大骨段长度。