利索能及
我要发布
收藏
专利号: 2020113716848
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于对抗训练先验学习的单视图三维重建方法,其特征在于:

采用一种基于对抗训练先验学习的单视图三维重建系统,包括:重建器、可微渲染器、判别器、重建损失函数、视图判别损失函数;

所述的重建器,采用编解码结构,包括编码器和解码器;所述的解码器包括形状解码器和纹理解码器;

所述的编码器,包括:3个二维卷积层Conv和2个全连接层FC,将图像作为输入,生成相应的隐向量表示;3个卷积层的卷积核大小均为3×3,步幅stride均为2,输出通道数filters分别是128、256和512,在每个卷积层后面设置有一个批量归一化层BN和一个ReLU激活函数;2个全连接层的输出分别是2048和1024,每个全连接层后面设置有一个批量归一化层BN层和一个ReLU激活函数;编码器最终输出1024维的特征向量;

所述的解码器,包括:形状解码器和纹理解码器,且均用多层感知机实现:所述的形状解码器根据隐向量重建三维形状,记作三维形状MLP;所述的纹理解码器根据隐向量生成相应的纹理图像,记作纹理图像MLP;

所述的判别器,包括:4个二维卷积层和一个全连接层:4个卷积层的卷积核大小均为5×5,步幅均为1,输出通道数分别是256、512、1024和2048,在每个卷积层后面设置一个层归一化层LN和一个Leaky‑ReLU激活函数;全连接层的输出是1维,其后设置有一个Sigmoid函数;

所述方法包括以下训练步骤:

步骤1.初始三维形状重建训练:根据输入图像训练生成其对应的初始三维模型;

步骤2.形状真实性对抗训练:学习渲染视图的正确性,将已观察到的视点上的渲染视图和未观察到的视点上的渲染视图区分开来;通过估计渲染视图和三维形状,判别器将识别损失的梯度反向传播到重建器,从而将修改不正确视图的知识传递给重建器;

所述的步骤1的训练目标是最小化重建三维形状的渲染视图与基准视图之间的差异,其具体过程包括:

1‑1.将重建器记作R(·),输入对象的多个视图数据,输出由三维形状和纹理表示的三维模型;

1‑2.将可微渲染器记作P(·,·),输入一个三维模型和相应的视点;根据指定视点,将三维模型投影到相应视图,将其渲染成RGB视图或者轮廓视图;

1‑3.将重建损失函数记作 是度量两个视图间差异的函数;其训练总损失定义如下:其中,假设xij是对象oi从某个视点vij的观察视图;No表示训练数据集中的对象数;Nv是每个对象的视点数;v是训练数据集中所有视点的集合;R(·)是重建器;P(·,·)是可微渲染器;

所述步骤1的训练过程采用RGB彩色图像和轮廓图像数据,因此公式(1)中的 需要考虑RGB彩色图像和轮廓图像两类图像;设:x和 是基准视图和估计视图,xc和分别是x和 的RGB彩色图像,xs和 分别是x和 的轮廓图像;为了比较彩色图像xc和采用结构相似性SSIM评价;假设深度神经网络输出的多尺度特征图数量是Nf,即Nf是尺度数, 和 则表示第i个尺度对应的RGB彩色图,Mi和Ni表示 和 的宽度和高度,则比较RGB彩色图像xc和 的损失函数定义如下:对于轮廓图像xs和 如果第k个像素属于对象,则第k个像素处的轮廓值设置为1;如果第k个像素属于背景,其轮廓值设置为0;设计多尺度余弦距离衡量轮廓图像xs和 之间的i‑1差异;设 是和 由xs和 降采样2 次得到的图像,将轮廓图像的损失函数定义为:所以,重建损失函数 其中,λc是一个超参数;

所述的步骤2的具体过程包括:

2‑1.将判别器记作Dis(·,·),输出渲染图像正确的概率;

2‑2.将视图判别损失函数记作 基于判别器7,根据视图及相应视点,输出该视图正确的概率;利用交叉熵,将 定义如下:其中,v是训练数据集中所有视点的集合。

2.一种基于对抗训练先验学习的单视图三维重建系统,其特征在于,包括:重建器、可微渲染器、判别器、重建损失函数、视图判别损失函数;

所述的重建器,采用编解码结构,包括编码器和解码器;所述的解码器包括形状解码器和纹理解码器;

所述的编码器,包括:3个二维卷积层Conv和2个全连接层FC,将图像作为输入,生成相应的隐向量表示;3个卷积层的卷积核大小均为3×3,步幅stride均为2,输出通道数filters分别是128、256和512,在每个卷积层后面设置有一个批量归一化层BN和一个ReLU激活函数;2个全连接层的输出分别是2048和1024,每个全连接层后面设置有一个批量归一化层BN层和一个ReLU激活函数;编码器最终输出1024维的特征向量;

所述的解码器,包括:形状解码器和纹理解码器,且均用多层感知机实现:所述的形状解码器根据隐向量重建三维形状,记作三维形状MLP;所述的纹理解码器根据隐向量生成相应的纹理图像,记作纹理图像MLP;

所述的判别器,包括:4个二维卷积层和一个全连接层:4个卷积层的卷积核大小均为5×5,步幅均为1,输出通道数分别是256、512、1024和2048,在每个卷积层后面设置一个层归一化层LN和一个Leaky‑ReLU激活函数;全连接层的输出是1维,其后设置有一个Sigmoid函数;

其中,所述的重建损失函数和视图判别损失函数的建立过程包括:

1‑1.将重建器记作R(·),输入对象的多个视图数据,输出由三维形状和纹理表示的三维模型;

1‑2.将可微渲染器记作P(·,·),输入一个三维模型和相应的视点;根据指定视点,将三维模型投影到相应视图,将其渲染成RGB视图或者轮廓视图;

1‑3.将重建损失函数记作 是度量两个视图间差异的函数;其训练总损失定义如下:其中,假设xij是对象oi从某个视点vij的观察视图;No表示训练数据集中的对象数;Nv是每个对象的视点数;v是训练数据集中所有视点的集合;R(·)是重建器;P(·,·)是可微渲染器;

所述步骤1的训练过程采用RGB彩色图像和轮廓图像数据,因此公式(1)中的 需要考虑RGB彩色图像和轮廓图像两类图像;设:x和 是基准视图和估计视图,xc和分别是x和 的RGB彩色图像,xs和 分别是x和 的轮廓图像;为了比较彩色图像xc和采用结构相似性SSIM评价;假设深度神经网络输出的多尺度特征图数量是Nf,即Nf是尺度数, 和 则表示第i个尺度对应的RGB彩色图,Mi和Ni表示 和 的宽度和高度,则比较RGB彩色图像xc和 的损失函数定义如下:对于轮廓图像xs和 如果第k个像素属于对象,则第k个像素处的轮廓值设置为1;如果第k个像素属于背景,其轮廓值设置为0;设计多尺度余弦距离衡量轮廓图像xs和 之间的i‑1差异;设 是和 由xs和 降采样2 次得到的图像,将轮廓图像的损失函数定义为:所以,重建损失函数 其中,λc是一个超参数。