买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于维度融合注意力的行人重识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于维度融合注意力的行人重识别方法

￥14400

专利号： 202211376084X

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于维度融合注意力的行人重识别方法，其特征在于，包括以下步骤：步骤1、准备工作，准备工作是为训练做准备，包括数据集，优化器，损失函数的准备,使用交叉熵损失、加权正则化的三元组损失和中心损失联合优化网络参数，缓解类内差异，行人重识别用的三种损失函数；

步骤2、训练阶段，在训练阶段对网络进行介绍；

步骤3、测试阶段，在新的数据集中，将训练好的模型进行应用，将上面训练好的行人重识别系统部署到景区的视频监控系统中，某天游客“张三”失踪了，景区需要在视频监控系统当天录下的大量视频图像中寻找张三的图像，当输入一个行人“张三”的图像后，行人重识别系统到数据集中搜寻，试图找出数据集中所有“张三”的图像，系统给出的搜索结果是：若干个图像，并且进行了排序，排序的依据是搜寻这些图像与“张三”图像的相似度。

2.根据权利要求1所述的基于维度融合注意力的行人重识别方法，其特征在于，所述步骤1具体包括以下步骤：步骤1.1、数据集准备：对于给定的数据集，要划分训练集和测试集，测试集又分为查询图片和待查询图片，为体现公平性，训练集和测试集数据比例为1:1；

步骤1.2、优化器准备：与大部分行人重识别相同，使用Adam优化器对网络参数进行优化；

步骤1.3.交叉熵损失：

其中，yi,k代表第i张图像的身份是否为K，N表示数据集中行人总类别数，pi,k表示第i张图像的身份是为k的概率；

步骤1.4.加权正则化的三元组损失：

式中i为每个批中的锚点图像，Pi表示正样本集，Ni表示负样本集，和分别锚点图像与正样本图像和负样本图像间的距离；

步骤1.5.中心损失：

式中，fi表示第i个样本经过深度网络后提取得到的特征，yi表示第i个样本的标签，cyi表示第yi个类别对应的高维特征中心，B表示批次大小；

最后的总损失为:

L＝Lcls+Lwrt+Lcenter (4)。

3.根据权利要求1所述的基于维度融合注意力的行人重识别方法，其特征在于，所述步骤2具体包括以下步骤：步骤2.1、使用Resnet50作为网络的基本骨架，在网络的每个瓶颈块的第二个批归一化处理后插入DFA；

步骤2.2、DFA模块，其分为三个步骤，分别为池化准备阶段、维度融合交互阶段和特征注意阶段，三个阶段中上一个阶段为下一个阶段做准备；

步骤2.3、第一阶段是对特征图做维度变换，处理成第二阶段维度融合的形状，Max&&Avg为对张量的最大池化和平均池化操作，其计算过程如式(1):Xr＝Cat(Per(PoolH(X)),Per(PoolW(X))) (5)其中，PoolH(·)表示对H维度做池化操作，PoolW(·)表示对W维度做池化操作，Cat(·)表示张量拼接操作，Per(·)表示张量旋转操作，该部分输入张量X形状为C×H×W输出形状为，输出张量Xr形状为4×C×(H+W)；

步骤2.4、第二阶段的任务是进行维度交互，首先使用一个滑动窗口的方式将第一阶段的输出转化为2维张量，对应Unflod步骤，再使用大小为49的超大一维卷积核学习进行维度交互，最后使用flod操作将其还原成三维张量即可，其计算过程如式(2)所示:Xf＝Flod(Conv49(Unflod(Xr))) (6)其中Unflod(·)表示维度融合操作，Conv49(·)表示大小为49的一维卷积核，Flod(·)为Unflod(·)的逆操作；

步骤2.5.第三阶段的任务是将上各阶段的特征图转换为注意图，与常规注意力机制相同，使用Sigmoid函数作为激活函数来激活有效特征，再与原始特征相乘即可得到注意特征；

步骤2.6、在网络最后引入了ECA注意力机制，卷积核大小为5的ECA注意力，所用ECA注意力即为最基本的ECA注意力机制；

步骤2.7、在网络最后引入ECA，ECA具有跨纬度交互的作用；

步骤2.8、将训练数据依次输入网络，得到行人特征，将得到的行人特征输入损失函数，通过Adam优化器对网络参数进行限制。

4.根据权利要求1所述的基于维度融合注意力的行人重识别方法，其特征在于，所述步骤3具体包括以下步骤：步骤3.1、测试阶段将测试集所有图像特征全都通过训练好的网络提取出来，在测试阶段，使用原图像和水平翻转的图像的平均特征作为最后特征，然后依次计算每张查询图像和所有待查询图像的欧氏距离；

步骤3.2、对于每张查询图像，其相对所有待查询图像均有欧氏距离，对所有欧氏距离进行快速排序，排序结果越靠前的欧式距离所对应的待查询图片与查询图片越相似；

步骤3.3、多次查询行人图像后，评估系统的准确率，使用mAP、Rank‑1和Rank‑10指标评价。