利索能及
我要发布
收藏
专利号: 202311168173X
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,包括如下步骤:步骤1:在SCHAL‑Net网络模型中分别输入RGB图像和红外图像,进入步骤2;

步骤2:将RGB图像和红外图像两种模态的图像分别通过ResNet50的Conv1卷积层,提取各自模态所特有的特征,进入步骤3;

步骤3:将共享参数的ResNet50网络的特征映射分为四个阶段,分别在前两个阶段的特征映射之后添加浅层特征增强模块,进入步骤4;

步骤3具体包括:

步骤3‑1:将F输入到两个不同的自适应平均池化层分别得到2个特征一样的F1和2个特征一样的F4,输入浅层特征增强模块的特征记作步骤3‑2:将F输入到两个不同的取均值以及最大值操作,分别得到特征F2,F3,F5,F6;

步骤3‑3:将自适应平均池化层、取均值以及最大值操作得到的特征进行拼接,分别得

4×C×W 4×C×H 4×C×(H+W)

到FH∈R 和FW∈R ,并按最后一维进行拼接得到特征FHW∈R ;

步骤3‑4:对输出特征FHW进行unfold操作,将三维特征转成二维特征,使用Conv1d卷积,

1×C×(H+W)

通过fold操作将维度还原到三维,得到细节、位置信息更多的浅层特征Fshallow∈R ;

步骤3‑5:将学习到的浅层特征Fshallow经过Sigmoid激活函数与F相乘获得最终输出和步骤4:在ResNet50第三阶段输出的特征经过高维度特征映射模块作为最终整体特征的输出,进入步骤5;

步骤5:对ResNet50第三阶段输出的特征进行图像块处理,提取局部特征,在经过注意力模块作为最终局部特征的输出,进入步骤6;

步骤6:基于高维度模态内特征聚合模块,将步骤4输出的最终整体特征和ResNet50第四阶段的特征进行融合,得到融合后的特征,从而对整体特征进行约束,进入步骤7;

步骤6具体包括:

步骤6‑1:将经过ResNet50第四阶段输出的特征f4和最终的整体特征ffinal‑Global输入部分特征加权模块;

步骤6‑2:对f4进行池化操作,并在维度上进行相应的改变得到x4;

步骤6‑3:将x4分别经过三个1×1的卷积层得到特征v(x4),u(x4),z(x4);

步骤6‑4:计算注意力图并用Softmax函数进行归一化得到α;

步骤6‑5:将步骤4得到的结果与z(x4)做内积操作得到y;

步骤6‑6:初始化一个可学习的注意力增强部分特征的权重w,构造一个判别性的部分聚合特征的表示;

步骤6‑7:进行Softmax操作;

步骤6‑8:将步骤7得到的结果与步骤5得到的结果做内积得到F″;

步骤6‑9:将ffinal‑Global与F″进行相加操作,让整体特征ffinal‑Global能够拥有更深层次的特征,输出特征步骤7:对步骤4输出的最终整体特征、步骤5输出的最终局部特征以及步骤6融合后的特征进行整体和局部特征协同约束,进入步骤8;

步骤8:若达到指定的训练轮数,则进行步骤9,否则继续完成训练,返回步骤1;

步骤9:得到训练完成的SCHAL‑Net网络模型,并基于SCHAL‑Net网络模型,实现跨模态地点识别。

2.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤1具体为:采集的RGB图像和红外图像来自公开数据集KAIST,RGB图像是三个通道,红外图像通过填充相同值的策略将单通道扩展为三通道。

3.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤2具体为:将RGB图像 和红外图像 输入网络,分别通过一层卷积操作,得到RGB模态和红外模态的特有特征 和

4.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4具体包括:步骤4‑1:将 和 输入ResNet50的第三层,得到两种模态的整体共享特征其中两种模态的图像经过的卷积层的结构和参数相同;

步骤4‑2:输出整体共享特征

步骤4‑3:将整体共享特征输入到高维度特征映射模块作为最终整体特征的输出。

5.根据权利要求4所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4‑3具体包括:i

步骤4‑3‑1:对F执行flatten操作,在维度上进行相应的改变,得到特征向量F′={X}∈N×C×H×WR ,i={1 ,...,C},输入高维度特征映射模块的描述符记作步骤4‑3‑2:进入MLP模块,将一组扁平的特征映射作为输入,并将整体关系合并到每个i i特征映射中,MLP模块的表示为:X=W2(σ(LayerNorm(X)W1)),其中LayerNorm是对每个输入特征的第二个维度计算均值和方差,W1和W2是构成MLP的两个全连接层的权值,σ是激活函数;

步骤4‑3‑3:将MLP模块中输入与输出的特征向量做求和操作;

步骤4‑3‑4:通过两个全连接层,依次按通道方向和行方向进行降维;

步骤4‑3‑5:执行批归一化操作输出最终的整体特征 和

6.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤5具体包括:步骤5‑1:将步骤4‑1得到的 和 以特征块的形式进行局部特征的提取,得到特征 和

步骤5‑2:将步骤5‑1得到的特征经过注意力模块得到最终的局部特征

7.根据权利要求6所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤5‑2具体为:步骤5‑2‑1:将Pi分别进行三个卷积操作得到fQuery,fKey,fValue;

步骤5‑2‑2:将fQuery和fKey相乘后进行Softmax操作得到特征步骤5‑2‑3:将 和fValue相乘得到特征f;

步骤5‑2‑4:将f进行卷积操作得到特征f';

步骤5‑2‑5:将f'输入BN层与Pi相加得到的最终局部特征 和

8.根据权利要求1所述的一种基于高维度特征映射和特征聚合的跨模态地点识别方法,其特征在于,步骤4、5、6中的整体级别和局部级别联合约束由整体级别约束损失、局部级别约束损失组成,并基于VPR任务的困难三元组损失和交叉熵损失。