买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种模态增强和补偿的跨模态行人重识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种模态增强和补偿的跨模态行人重识别方法

￥31200

专利号： 202410018744X

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种模态增强和补偿的跨模态行人重识别方法，其特征在于，包括如下步骤：步骤S1、构建双流骨干网络，基于输入图片，分别提取可见光模态和红外模态的行人特征信息；

步骤S2、构建模态增强空间，提取具有充分行人模态信息的特征；

步骤S3、构建模态补偿空间，从三个维度补偿两个模态相应的缺失模态信息；

步骤S4、设计模态相互指导学习策略，指导两个模态相互学习相应的行人身份信息，并引导模态特征对齐匹配；

步骤S5、利用损失函数进行网络优化，对网络提取的特征进行相似性度量，输出行人匹配结果。

2.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，步骤S1，基于ResNet‑50构建双流骨干网络，所述双流骨干网络分为五个阶段，具体如下：步骤S101、构建双流特征提取网络的前三个阶段：前三个阶段为特定模态阶段，网络参数不共享，分别针对红外模态和可见光模态构建两个网络分支，提取两个模态的浅层次行人特征，将两个网络分支提取出来的特征在批次维度上进行拼接，形成新的特定模态特征表示；

步骤S102、构建双流特征提取网络的后两个阶段：后两个阶段为共享模态阶段，将拼接后的特定模态特征作为输入，进行共享模态特征提取，共同提取两个模态的行人特征信息，得到初始行人特征F， C、H、W分别表示初始行人特征的通道、高度和宽度。

3.根据权利要求2所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，步骤S2构建模态增强空间，堆叠若干不同类型的卷积块，并结合通道注意力机制，对双流骨干网络中共享模态阶段提取的行人特征信息进行增强，获取行人识别信息，使得提取的行人特征具有身份相关信息，在模态增强空间中生成增强行人特征。

4.根据权利要求3所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，所述模态增强空间为具有不同尺度的双分支结构，每个分支包括三个阶段，由三种卷积结构组成，包括Down‑Conv、Enhance‑Conv和Up‑Conv；构建模态增强空间，具体步骤如下：步骤S201、设计Down‑Conv卷积结构，将其放置在双分支的开始位置，用于将特征的通道维数从C降为C/r，以减少操作的计算量，r是一个超参数，Down‑Conv表示如下：Down‑Conv(·)＝ReLU(BN(PConv1×1(·)))其中，PConv1×1(·)表示内核大小为1的point‑wise卷积；BN(·)表示批归一化层；

步骤S202、设计Enhance‑Conv卷积结构，由两种具有不同感受野尺度的卷积组成，以提取行人的细节，表示为：Enhance‑Conv(·)＝ReLU(BN(GConv3×3(PConv1×1(·))))其中，GVonv3×3(·)是一个内核大小为3的组卷积算子；

步骤S203、设计Up‑Conv卷积结构，将增强特征通道维数恢复到原始通道维数C，表示为：Up‑Conv(·)＝BN(PConv1×1(·))

步骤S204、基于上述三个卷积结构，将从双流骨干网络提取出来的初始行人特征F输入到双分支结构的模态增强空间中，挖掘包含丰富模态信息的鉴别性行人特征，将两个分支的融合结果与初始行人特征F残差连接，在模态增强空间中生成增强行人特征步骤S205、将设计好的模态增强空间，分别放置在双流骨干网络最后两个阶段的后面。

5.根据权利要求3所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，步骤S3构建模态补偿空间，基于红外模态和可见光模态之间的差异，分别从模态增强空间中提取出的增强行人特征的高度、宽度和通道三个维度，进行相应模态特征的信息补偿，丰富行人身份信息并提高特征表示的鲁棒性，使得相应的模态特征不再缺失另一个模态的行人身份信息，缓解模态之间的差异。

6.根据权利要求5所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，构建模态补偿空间，用可见光模态信息补偿红外模态特征，具体步骤如下：步骤S301、将增强行人特征沿批次维度分为可见光增强特征和红外增强特征对高度、宽度和通道维度进行排列重构，形成新的重塑特征和分别对重塑特征的第一个维

度使用平均池化和最大池化，池化结果分别为和

步骤S302、从池化后的特征中捕获细粒度的可见光模态信息，使用内核大小为7×7的深度卷积进行处理，通过归一化层和ReLU激活函数，利用sigmoid激活函数生成可见光模态特征的注意力权重和步骤S303、用可见光模态信息补偿红外模态特征，在每批次中，红外特征分别从高度、宽度和通道三个维度上乘以可见光模态的注意力权重和将在高度、宽度和通道三个维度进行重构以方便矩阵相乘，重塑为和计算在不同维度中包含的可见光模态行人信息，分别将和乘以和获得和

步骤S304、将特征和进行加法运算，求平均得到红外模态特征中每个维度都包含了关于可见光模态特征的相关行人模态信息；

步骤S305、在上使用位置注意力机制，沿高度和宽度维度方向保留准确的行人位置信息，得到的红外特征接收到来自可见光模态特征所有维度的细粒度信息的补偿；

步骤S306、使用步骤S301至S305的操作，用红外模态特征对可见光模态特征进行相关行人信息的补偿，得到补偿后的可见光特征步骤S307、设计好的模态补偿空间，分别放置在双流骨干网络最后两个阶段后的模态增强空间的后面，构成完整网络。

7.根据权利要求6所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，步骤S4中模态相互指导学习策略，通过身份信息互学习损失和模态引导对齐损失共同优化整个网络，具体步骤如下：步骤S401、创建两个二进制掩码mlavel和mulabel，分别用于过滤与标签相关和无关的预测结果，mlabel和mulabel中的每个元素都被定义如下：其中，label(p)是标签中的第p个行人身份；q为掩码的列数；

步骤S402、将mlabel和mulabel通过下式进行拼接，得到一个新的预测结果U，具有更多与标签无关的真实身份预测信息：其中，c(p，q)是预测矩阵c中的一个元素；N是行人身份数；

v i v i

步骤S403、将F 、F 、和分别通过BNNeck操作获得预测矩阵C 、C 、和通过步v i v i骤S402的式子为C、C、和分别计算出预测结果U、U、和身份信息互学习损失基于KL散度构建，定义如下：

其中，是U的第j项，表示第j个身份行人特征的ul‑logit；是的第j项，表示第j个补偿可见光模态行人的ul‑logit；α是一个超参数；KL(·)表示KL散度计算；

步骤S404、模态引导对齐损失用于减少不同模态之间和模态内部分布的距离，以增强特征的可辨别性，通过对可见光和红外特征施加MMD约束，具体定义为：v i

其中，F和F 分别为初始特征F沿批次维度分割成初始可见光和红外特征，和分别是由模态补偿空间得到可见光补偿特征和红外补偿特征；norm(·)为2范数，gemp(·)为广义平均池化层，mmd(·)表示为：

1 2

其中，F 和F 分别表示mmd(·)的两个输入；φ(·)是将两个模态特征嵌入到再生核希尔伯特空间中的特征映射函数，K1、K2分别表示可见光和红外模态的行人数量。

8.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法，其特征在于，步骤S5中利用身份损失和circle损失对网络和分类结果进行优化，表示为：其中，N为每批内的训练样本数；yj为第i个行人身份的标签；p(yj|fj)是特征fj对应yj的预测；

其中，Δn＝m，Δp＝1‑m，和是正负样本

对；γ是circle损失的比例因子；m是控制正样本对和负样本对距离差的边界，M是正样本的数量。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑8中任一所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时，实现权利要求1至8中任一项所述的模态增强和补偿的跨模态行人重识别方法中的步骤。

推荐专利

一种增强优化跨域行人重识别方法

发明专利

￥20400

一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法

发明专利

￥31200

一种基于Transformer的跨模态行人重识别方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们