买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法

￥31200

专利号： 2024104064805

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法，其特征在于，包括以下步骤：（1）获取原始图像，划分训练集、验证集和测试集；对训练集中的可见光图像和红外图像进行预处理；

（2）利用ResNet50作为骨干网络，添加辅助模态增强模块；具体如下：首先由训练集中的可见光图像进行随机通道组合得到辅助模态图像，将三种模态的图像输入到ResNet50网络中，再利用注意力加权融合策略增强辅助模态的图像表示；

（3）将步骤（2）输出的特征继续输入到ResNet50进行特征提取和融合，并计算跨模态实例聚合损失；其中，在ResNet50的第三个和第四个残差块后分别添加多尺度特征融合模块；包括以下步骤：（31）将步骤（2）输出的特征继续输入到由ResNet50的第一个和第二个残差块构成的浅层网络中继续提取特征；

（32）将浅层网络输出的特征进行全局平均池化和批量归一化，然后计算跨模态实例聚合损失；具体如下：设第二个残差块输出的浅层特征图为、、经过全局平均池化和批量归一化后计算跨模态成对样本特征差异的均值，公式如下：；

；

其中，N是一个训练批次中成对样本的数量，和分别表示m模态和n模态的第i个样本的特征；表示两个特征之差的均值；

（33）将ResNet50第二个残差块输出的三种模态的特征输入到模态共享分支，模态共享分支由ResNet50的第三和第四个残差块构成；其中，第三和第四个残差块分别添加多尺度特征融合模块；其中，多尺度特征融合模块包括两个结构相同的分支：上一个残差块输出的低级特征和当前残差块输出的高级特征作为输入，其中，h、w、c分别表示特征的高度、宽度和通道数；

其中，每一个分支利用膨胀卷积分别得到多尺度的低级特征和高级特征；然后再进行加权融合，并将融合后的特征输入到下一阶段，公式如下：；

其中，是一个可学习的参数，用于控制低级特征和高级特征的融合比例；

（4）将ResNet50最终的输出特征进行全局平均池化和批量归一化，计算局部语义一致性损失；其中，局部语义一致性损失公式如下：；

其中，；

；

和是超参数。

2.根据权利要求1所述的一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法，其特征在于，所述步骤（1）具体如下：从现有数据集中SYSU‑MM01和RegDB中获取行人图像和身份标签，将其划分为训练集、验证集和测试集；对训练集图像进行水平翻转、随机擦除预处理操作，并将图像裁剪为288 * 144个像素；再将所有图像使用通道均值和标准差进行标准化。

3.一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别系统，其特征在于，包括：预处理模块：用于获取原始图像，划分训练集、验证集和测试集；对训练集中的可见光图像和红外图像进行预处理；

辅助模态增强模块：用于利用ResNet50作为骨干网络，添加辅助模态增强模块；

多尺度特征融合模块：用于将辅助模态增强模块输出的特征继续输入到由ResNet50进行特征提取和融合，并计算跨模态实例聚合损失；其中，在ResNet50的第三个和第四个残差块后分别添加多尺度特征融合模块；包括以下步骤：（31）将步骤（2）输出的特征继续输入到由ResNet50的第一个和第二个残差块构成的浅层网络中继续提取特征；

；

其中，N是一个训练批次中成对样本的数量，和分别表示m模态和n模态的第i个样本的特征；表示两个特征之差的均值；

其中，每一个分支利用膨胀卷积分别得到多尺度的低级特征和高级特征；然后再进行加权融合，并将融合后的特征输入到下一阶段，公式如下：；

其中，是一个可学习的参数，用于控制低级特征和高级特征的融合比例；

局部语义一致性模块：将ResNet50最终的输出特征进行全局平均池化和批量归一化，计算局部语义一致性损失，其中，局部语义一致性损失公式如下：；

其中，；

；

和是超参数。

4.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1‑2任一项所述的一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法。

5.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被设计为运行时实现根据权利要求1至2任一项所述的一种基于辅助模态增强和多尺度特征融合的跨模态行人重识别方法。