利索能及
我要发布
收藏
专利号: 202410018744X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种模态增强和补偿的跨模态行人重识别方法,其特征在于,包括如下步骤:步骤S1、构建双流骨干网络,基于输入图片,分别提取可见光模态和红外模态的行人特征信息;

步骤S2、构建模态增强空间,提取具有充分行人模态信息的特征;

步骤S3、构建模态补偿空间,从三个维度补偿两个模态相应的缺失模态信息;

步骤S4、设计模态相互指导学习策略,指导两个模态相互学习相应的行人身份信息,并引导模态特征对齐匹配;

步骤S5、利用损失函数进行网络优化,对网络提取的特征进行相似性度量,输出行人匹配结果。

2.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S1,基于ResNet‑50构建双流骨干网络,所述双流骨干网络分为五个阶段,具体如下:步骤S101、构建双流特征提取网络的前三个阶段:前三个阶段为特定模态阶段,网络参数不共享,分别针对红外模态和可见光模态构建两个网络分支,提取两个模态的浅层次行人特征,将两个网络分支提取出来的特征在批次维度上进行拼接,形成新的特定模态特征表示;

步骤S102、构建双流特征提取网络的后两个阶段:后两个阶段为共享模态阶段,将拼接后的特定模态特征作为输入,进行共享模态特征提取,共同提取两个模态的行人特征信息,得到初始行人特征F, C、H、W分别表示初始行人特征的通道、高度和宽度。

3.根据权利要求2所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S2构建模态增强空间,堆叠若干不同类型的卷积块,并结合通道注意力机制,对双流骨干网络中共享模态阶段提取的行人特征信息进行增强,获取行人识别信息,使得提取的行人特征具有身份相关信息,在模态增强空间中生成增强行人特征。

4.根据权利要求3所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,所述模态增强空间为具有不同尺度的双分支结构,每个分支包括三个阶段,由三种卷积结构组成,包括Down‑Conv、Enhance‑Conv和Up‑Conv;构建模态增强空间,具体步骤如下:步骤S201、设计Down‑Conv卷积结构,将其放置在双分支的开始位置,用于将特征的通道维数从C降为C/r,以减少操作的计算量,r是一个超参数,Down‑Conv表示如下:Down‑Conv(·)=ReLU(BN(PConv1×1(·)))其中,PConv1×1(·)表示内核大小为1的point‑wise卷积;BN(·)表示批归一化层;

步骤S202、设计Enhance‑Conv卷积结构,由两种具有不同感受野尺度的卷积组成,以提取行人的细节,表示为:Enhance‑Conv(·)=ReLU(BN(GConv3×3(PConv1×1(·))))其中,GVonv3×3(·)是一个内核大小为3的组卷积算子;

步骤S203、设计Up‑Conv卷积结构,将增强特征通道维数恢复到原始通道维数C,表示为:Up‑Conv(·)=BN(PConv1×1(·))

步骤S204、基于上述三个卷积结构,将从双流骨干网络提取出来的初始行人特征F输入到双分支结构的模态增强空间中,挖掘包含丰富模态信息的鉴别性行人特征,将两个分支的融合结果与初始行人特征F残差连接,在模态增强空间中生成增强行人特征步骤S205、将设计好的模态增强空间,分别放置在双流骨干网络最后两个阶段的后面。

5.根据权利要求3所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S3构建模态补偿空间,基于红外模态和可见光模态之间的差异,分别从模态增强空间中提取出的增强行人特征的高度、宽度和通道三个维度,进行相应模态特征的信息补偿,丰富行人身份信息并提高特征表示的鲁棒性,使得相应的模态特征不再缺失另一个模态的行人身份信息,缓解模态之间的差异。

6.根据权利要求5所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,构建模态补偿空间,用可见光模态信息补偿红外模态特征,具体步骤如下:步骤S301、将增强行人特征 沿批次维度分为可见光增强特征和红外增强特征 对高度、宽度和通道维度进行排列重构,形成新的重塑特征 和 分别对重塑特征的第一个维

度使用平均池化和最大池化,池化结果分别为 和

步骤S302、从池化后的特征中捕获细粒度的可见光模态信息,使用内核大小为7×7的深度卷积进行处理,通过归一化层和ReLU激活函数,利用sigmoid激活函数生成可见光模态特征的注意力权重 和步骤S303、用可见光模态信息补偿红外模态特征,在每批次中,红外特征分别从高度、宽度和通道三个维度上乘以可见光模态的注意力权重 和 将 在高度、宽度和通道三个维度进行重构以方便矩阵相乘,重塑为 和计算 在不同维度中包含的可见光模态行人信息,分别将 和 乘以和 获得 和

步骤S304、将特征 和 进行加法运算,求平均得到红外模态特征 中每个维度都包含了关于可见光模态特征 的相关行人模态信息;

步骤S305、在 上使用位置注意力机制,沿高度和宽度维度方向保留准确的行人位置信息,得到的红外特征 接收到来自可见光模态特征 所有维度的细粒度信息的补偿;

步骤S306、使用步骤S301至S305的操作,用红外模态特征 对可见光模态特征 进行相关行人信息的补偿,得到补偿后的可见光特征步骤S307、设计好的模态补偿空间,分别放置在双流骨干网络最后两个阶段后的模态增强空间的后面,构成完整网络。

7.根据权利要求6所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S4中模态相互指导学习策略,通过身份信息互学习损失 和模态引导对齐损失 共同优化整个网络,具体步骤如下:步骤S401、创建两个二进制掩码mlavel和mulabel,分别用于过滤与标签相关和无关的预测结果,mlabel和mulabel中的每个元素都被定义如下:其中,label(p)是标签中的第p个行人身份;q为掩码的列数;

步骤S402、将mlabel和mulabel通过下式进行拼接,得到一个新的预测结果U,具有更多与标签无关的真实身份预测信息:其中,c(p,q)是预测矩阵c中的一个元素;N是行人身份数;

v i v i

步骤S403、将F 、F 、 和 分别通过BNNeck操作获得预测矩阵C 、C 、 和 通过步v i v i骤S402的式子为C、C、 和 分别计算出预测结果U、U、 和身份信息互学习损失 基于KL散度构建,定义如下:

v

其中, 是U的第j项,表示第j个身份行人特征的ul‑logit; 是 的第j项,表示第j个补偿可见光模态行人的ul‑logit;α是一个超参数;KL(·)表示KL散度计算;

步骤S404、模态引导对齐损失 用于减少不同模态之间和模态内部分布的距离,以增强特征的可辨别性,通过对可见光和红外特征施加MMD约束, 具体定义为:v i

其中,F和F 分别为初始特征F沿批次维度分割成初始可见光和红外特征, 和 分别是由模态补偿空间得到可见光补偿特征和红外补偿特征;norm(·)为2范数,gemp(·)为广义平均池化层,mmd(·)表示为:

1 2

其中,F 和F 分别表示mmd(·)的两个输入;φ(·)是将两个模态特征嵌入到再生核希尔伯特空间中的特征映射函数,K1、K2分别表示可见光和红外模态的行人数量。

8.根据权利要求1所述的模态增强和补偿的跨模态行人重识别方法,其特征在于,步骤S5中利用身份损失 和circle损失 对网络和分类结果进行优化,表示为:其中,N为每批内的训练样本数;yj为第i个行人身份的标签;p(yj|fj)是特征fj对应yj的预测;

其中,Δn=m,Δp=1‑m, 和 是正负样本

对;γ是circle损失的比例因子;m是控制正样本对和负样本对距离差的边界,M是正样本的数量。

9.一种电子设备,其特征在于,包括:

一个或多个处理器;

存储装置,其上存储有一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1‑8中任一所述的方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时,实现权利要求1至8中任一项所述的模态增强和补偿的跨模态行人重识别方法中的步骤。