买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于图卷积网络的多场景单目相机位姿回归方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于图卷积网络的多场景单目相机位姿回归方法

￥28800

专利号： 2021106022254

申请人：西安理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-15

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于图卷积网络的多场景单目相机位姿回归方法，具体包括以下步骤：步骤1，对多场景数据集图像进行预处理操作，包括图像分辨率重调、随机裁剪、归一化、中心裁剪、转换成Tensor数据类型操作；

步骤2，将步骤1预处理后的图像，输入特征提取网络，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征；

步骤3，使用步骤2中特征提取网络得到的图像特征，构建特征图谱，计算特征图谱对应的邻接矩阵、度矩阵、标签矩阵及特征矩阵；

步骤4，将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵，放入图卷积网络中，训练图卷积网络直至收敛；

步骤5，采用位置误差和旋转误差作为本发明所提方法的位姿回归性能评价指标，设置多组对比实验来评估模型泛化能力，根据最终评估结果，决定模型是否重新迭代。

2.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤1中，多场景数据集包括室外数据集Cambridge Landmarks和室内数据集Microsoft 7scenes。

3.根据权利要求2所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤1具体实现方式为：使用Torchvision官方库提供的transforms方法对图像数据集进行分辨率调整，将图像分辨率调整到256*256，对训练数据集采用随机裁剪方式调整图像进入特征提取网络之前的分辨率为224*224，对测试数据集使用中心裁剪方式，分辨率同样为224*224，此外将图像矩阵转换为Pytorch框架中的Tensor数据类型，并对图像矩阵进行归一化操作。

4.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，特征在于：所述步骤2具体使用ImageNet分类数据集预训练的EfficientNet‑b0权重，进行网络权重初始化。将步骤1预处理后的图像，输入特征提取网络，定义特征提取网络的损失函数，配置网络的训练参数，离线训练直至网络收敛，得到训练完成的特征提取网络，使用其提取图像特征。

5.根据权利要求4所述的一种基于图卷积网络的多场景单目相机位姿回归方法，特征在于：所述步骤2的具体步骤如下：步骤2.1，将步骤1中预处理后的图像，作为特征提取网络的输入，输入图像的尺寸调整为224*224，使用ImageNet预训练的EfficientNet‑b0权重对特征提取网络进行权重初始化；

步骤2.2，将分辨率为224*224的带标注训练集图像，放入特征提取网络中进行训练；

步骤2.3，将分辨率大小为224*224的带标注训练图像，输入到特征提取网络，将特征提取网络输出的特征矩阵，输入到全连接层，进行特征维度转变，然后经过场景分类分支，预测训练图像最可能的场景索引，根据预测的索引从权重数据库选择相应的权重，最终预测得到训练图像相机位姿。经损失函数的约束，网络参数优化调整，训练直至特征提取网络收敛；

步骤2.4，使用步骤2.3中训练完成的特征提取网络，获取输入图像的图像特征，用于特征图谱的构建。

6.根据权利要求5所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤2.2特征提取网络的损失函数定义如下：Lx(Ic)＝||xn‑xpred||2 (1)Lq(Ic)＝||qn‑qpred||2 (2)Lσ(Ic)＝Lx(Ic)*exp(‑sx)+sx+Lq(Ic)*exp(‑sq)+sq (3)式中Lσ(Ic(为特征提取网络针对位姿回归任务的损失函数，Ic为任意一张训练或测试图像；Lx(Ic(是位置估计的损失函数，xn为真实位置标注，xpred为模型估计的位置，即Lx(Ic(是真实位置标注和模型估计位置的二范数；Lq(Ic(是旋转估计的损失函数，qn为真实旋转标注，qpred为模型估计的旋转，即Lq(Ic(是真实旋转标注和模型估计旋转的二范数。sx和sq是仅与位置和旋转估计任务相关的参数，其中和分别是在位置和旋转估计任务中学习到的参数；式中特征提取网络最终的损失函数；Lσ(Ic(为位姿回归损失，spred_i为预测的场景索引分布，strue_i为真实的场景标注，N为数据集包含场景数。

7.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤4中，利用图卷积网络作为步骤2特征提取网络的有优化方案，更深层次的提取图像特征之间的隐藏信息，进一步优化了基于CNN卷积网络的多场景位姿回归性能。其具体步骤如下：

步骤4.1，采用频域卷积作为本发明中图卷积的实施方法，将步骤3中计算得到的邻接矩阵、度矩阵、标签矩阵及特征矩阵，输入到图卷积网络中；

步骤4.2，经过4个图卷积层和1个全连接层，进行维度转换，最后到位姿回归器，预测输入特征图谱对应的位姿，图卷积网络在步骤2的损失函数的约束下，反向传播误差，调整网络参数，训练图卷积网络直至网络收敛。

8.根据权利要求7所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤4.1中频域卷积的公式具体为：‑0.5 ‑0.5

F′＝D *A′*D *F*θ (6)其中F为步骤3.3中计算得到的特征矩阵，D是步骤3.3中计算得到的度矩阵，A为步骤

3.3中计算得到的邻接矩阵，A′为邻接矩阵A和特征图谱结点自循环的相加；θ为图卷积网络的权重，是图卷积网络的待学习参数。

9.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤5中，使用步骤1所述的测试图像集，进行模型评估。设置性能评价和泛化能力评估两个评估方案，得到模型最终的评估结果，其具体步骤如下：步骤5.1，给定预处理后的测试图像Qi，放入特征提取网络进行特征提取，得到图像特征行向量Xi；

步骤5.2，重复步骤5.1，得到所有测试图像的特征向量，将其构建特征图谱，并计算它的邻接矩阵A、度矩阵D、标签矩阵L和特征矩阵F，作为图卷积网络的输入；

步骤5.3，根据步骤1所述的测试数据集，使用位置误差和旋转误差，作为位姿回归的性能评价指标，在迭代50次后取位置误差和旋转误差的中位数，得到最终的位姿回归性能指标。

步骤5.4，为了评估模型的泛化能力，设置多组对比实验，使用跟本发明所提方法完全一致的特征提取网络结构EffcientNet‑b0，根据对比实验配置，使用不同权重初始化的Efficientnet‑b0，评估模型在不同数据集上的泛化能力。

步骤5.5，结合步骤5.3中位姿回归性能评价以及步骤5.4中的模型泛化能力评估，给出模型最终评估结果。如模型合格，则得到最终的多场景位姿回归模型：否则重复步骤2‑5，直至模型合格。

10.根据权利要求1所述的一种基于图卷积网络的多场景单目相机位姿回归方法，其特征在于：所述步骤5.3中，位置误差和旋转误差的具体计算方法为：Errort＝||Tpred‑Ttrue||2 (7)式中，Tpred为模型输出的待查询图像的预测位置，Ttrue为待查询图像的真实位置标注，表示真实位置和预测位置的差值的绝对值。位置误差表示真实旋转和预测旋转之间的角度差的绝对值，其中Rpred为模型输出的待图像的预测旋转，Rtrue为该图像对应的真实旋转标注。