买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法

￥21000

专利号： 2023102126376

申请人：北京工业大学

专利类型：发明专利

专利状态：授权未缴费

更新日期：2025-07-12

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于特征解耦重建和多尺度全局描述符的视觉地点识别方法，其特征在于，分为3部分，分别是特征解耦重建模块、多尺度特征提取网络、损失函数选取；

具体包括以下步骤：

1)特征解耦重建模块：

第一步，先对特征提取网络进行预训练模型的加载，网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG‑Net的前五个卷积层；在前四个卷积层的每个卷积层之后插入特征解耦重建模块；

经过VGG‑Net的卷积层后，得到图像提取的特征，对特征进行实例归一化；将归一化后的特征与输入的特征做差，得到剔除的特征；

第二步，使用一个通道注意力的网络结构对上述剔除的特征进行解耦，解耦出定位任务相关的信息和与定位任务无关的信息，将定位任务相关的信息与归一化后的特征相加得到重建后增强的特征，同时为了更好的训练网络，还将与任务无关的信息与归一化后的特征相加得到重建后削弱的特征；

训练过程中，返回每层特征解耦重建后增强后的特征、削弱后的特征计算损失，而推理过程中不需要返回特征；

2)多尺度特征提取网络：

第一步，多尺度特征提取网络在VGG‑Net特征提取部分后添加3个并列的膨胀卷积分支，每个分支的膨胀率分别为1、2、3，将得到三个的特征进行连接得到全局特征，通过不同的感受野使得可以关注到不同尺度的景物信息，丰富图像的表示；

第二步，进行对多尺度全局特征压缩；在训练前，首先在数据库中随机选取100张图像进行提取多尺度全局特征，每张图像随机提取500个点的特征值，共提取50000个特征点值，使用K‑means聚合成64×512的特征作为特征压缩网络初始化的聚类中心，其中64为聚类中心的个数，512为聚类中心的大小；训练时，使用多尺度全局特征和聚类中心计算残差和作为压缩后的多尺度全局描述符；

3)损失函数选取

Ranking损失和三重损失是图像检索中常用的损失，ranking损失针对二元组的数据衡量数据点之间的相似度度量，三重损失是针对三元组数据衡量数据点之间的相似度度量；

使用困难正样本和困难负样本进行训练；

三重损失倾向于最小化查询样本和正样本之间的距离，最大化查询样本和负样本之间的距离，损失用Lcon1表示；而特征解耦重建损失也有相同的出发点，特征增强后的特征应该使得查询样本和正样本之间的距离更近，查询样本和负样本之间的距离更远；相反，特征削弱后的特征应该使得查询样本和正样本之间的距离更远，查询样本和负样本之间的距离更近，损失用Lcon2；所以总损失函数如公式(1)：Lcon＝Lcon1+Lcon2 (1)。

2.根据权利要求1所述的方法，其特征在于：

1)特征解耦重建

先对特征提取网络进行预训练模型的加载，网络的特征提取部分是加载在大规模目标分类数据集ImageNet上进行预训练的VGG‑Net的前五个卷积层；每层卷积包括大小为3×3的卷积核、非线性激活层ReLU、大小为3×3的卷积核、非线性激活层ReLU和卷积核大小为2×2的最大池化操作，输出通道分别为64、128、256、512、512；

在前四个卷积层的每个卷积层之后插入特征解耦重建模块进行特征增强；从前一层输入的特征f首先经过实例归一化得到其中，IN()代表实例归一化操作，μ和σ代表在每个样本每个通道上的空间维度上独立计算的平均值和标准差，γ和β表示可训练参数，取训练30轮后损失函数最小的模型参数；

输入特征f与归一化后的特征做差，得到归一化过滤掉的特征R；由于不同图像的差异，所以使用通道注意力以内容自适应的方式进行解耦，过滤掉的特征经过1次平均池化层、2次1×1卷积、1次Relu激活函数和1次Sigmod激活函数，得到通道注意力的权重α，表示如下α＝ε(W2δ(W1pool(R))) (3)

其中，δ和σ分别代表Relu激活函数和Sigmod激活函数，W1和W2分别代表卷积核的参数，取训练30轮后损失函数最小的模型参数，为了减少参数量，W1的通道数为输入特征通道数/r，W2的通道数为输入特征通道数在，这里r＝16；

过滤掉的特征与通道注意力得到的权重进行乘积得到与任务相关的特征R ，过滤掉的‑特征与任务相关的特征做差得到与任务无关的特征R ,计算公式如下：+

R(:,:,k)＝αkR(:,:,k) (4)

‑

R(:,:,k)＝(1‑αk)R(:,:,k) (5)其中，k表示通道代表，αk代表通道k的注意力权重，R(:,:,k)代表特征R的第k通道的特+ + ‑ ‑征，R(:,:,k)代表特征R的第k通道的特征，R(:,:,k)代表特征R的第k通道的特征；

与任务相关的特征与归一化后的特征相加得到增强后的特征f ，与任务无关的特征与‑归一化后的特征相加得到削弱后的特征f；公式如下：

其中，为归一化后的特征；

增强后的特征输入到下一层卷积；增强后的特征与输入的特征大小一致，但特征表达能力得到增强；

最后一层卷积只使用两层3×3卷积和一层Relu激活函数；

2)多尺度全局描述符

将特征增强后的特征输入到三个并列的膨胀卷积中，三个膨胀卷积的膨胀率分别为1、

2、3，卷积核大小为3，padding分别为1、2、3，得到同样大小的三个特征，将得到的三个特征进行连接，得到多尺度的全局特征；多尺度全局特征输入到特征压缩网络，首先经过一个输出通道为64、1×1卷积核的卷积做分配，计算与每个聚类中心的相似度，然后计算与每个聚类中心的残差和，作为多尺度全局描述符；

3)损失函数

在网络的训练过程中，总的损失函数如公式(1)所示：

Lcon＝Lcon1+Lcon2 (1)损失函数的定义对网络模型性能来说至关重要，本发明设计的生成网络的损失函数由两部分组成，分别是三重损失(Lcon1)、特征解耦重建性损失(Lcon2)，训练时权重均一致；

三重损失，如公式(2)所示：

Lcon1＝max([φ(Fq,Fp)+g‑φ(Fq,Fn)],0) (8)其中F是经特征提取后的全局特征，Fq是查询图像经特征提取后的全局特征，Fp是正样本经特征提取后的全局特征，Fn是负样本经特征提取后的全局特征，φ是欧式距离，g＝

0.1；

特征解耦重建损失，如公式(3)所示：

其中fq表示查询图像经过实例归一化后的特征,fp表示正样本经过实例归一化后的特征，fn表示负样本经过实例归一化后的特征，表示查询图像使用任务相关信息重建后的特征，表示正样本使用任务相关信息重建后的特征，表示负样本使用任务相关信息重建后的特征，表示查询图像使用任务无关信息重建后的特征，表示正样本使用任务无关信息重建后的特征；表示负样本使用任务无关信息重建后的特征，φ是欧式距离；

将GPS坐标方圆25米内的图像作为候选正样本，随机选取GPS坐标25米以外的100张图像作为候选负样本；使用待训练的网络提取训练图像和候选正样本的多尺度全局描述符，计算描述符之间的欧式距离，选取距离最近的图像作为困难正样本，同样选取距离最近的

10张图像，作为困难负样本，参与损失计算；

4)图像检索

①建立城市图像数据库

在城市中选取地点拍摄图像，在每个地点选择每隔30度，即12个方向进行拍摄，拍摄平视和仰视两个角度，共计24张图像，每张图像附带拍摄地点真实GPS坐标；在GPS坐标方圆25米内即可认为是同一地点；使用收集的城市数据库按上述步骤训练网络，得到网络模型；

使用训练好的模型，对城市图像数据库提取多尺度全局描述符数据库；

②视觉地理定位

在城市中拍摄图像输入网络，提取多尺度全局描述符，与数据库中所有多尺度全局描述符计算L2距离，并对距离进行排序，距离最小的图像代表的位置即为查询图像的位置，返回图像的GPS坐标，作为查询图像的地理位置。