买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于关系图注意力网络的拥挤行人重识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于关系图注意力网络的拥挤行人重识别方法

￥15600

专利号： 2024103907029

申请人：南通大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于关系图注意力网络的拥挤行人重识别方法，其特征在于，包括以下步骤：步骤1：对P*K张图像数据预处理；

步骤2：将步骤1中获得的预处理完成的P*K张可见光图像输入至特征提取网络；

步骤3：利用ResNet50网络，将步骤2中输入的图像浅层特征挖掘出富含深层信息的图片特征；

步骤4：对于步骤1中输入的图像，利用OpenPose模型，获得每张图片的关键点集合；

步骤5：利用多个线性层，将关键点集合转变为高维向量；

步骤6：利用关系图注意力网络，将高维向量转变为显著的姿态特征；

步骤7：将步骤3的图片特征和步骤6的姿态特征进行输入形状引导的特征增强模块，从而获取最终的图片特征，并计算身份损失与WRT损失；

步骤8：利用获得的身份损失与WRT损失，计算总损失，将图片特征训练出性能良好的网络；

步骤9：若达到指定的训练轮数，则进行步骤10，否则继续完成训练，返回步骤1；

步骤10：结束；

所述步骤1中，图像均来自于拥挤行人重识别的数据集Market‑1501‑Crowded；

在Market‑1501‑Crowded中，充分考虑了人群拥挤的各种情况，对于原始Market‑1501数据集，随机选择一部分人群的图像，在每一张图像中随机选择一张其他图像中的人物的细粒度图像放置在该图片中，并随机缩小放置在人物后方，或随机放大放置在人物身前，从而模拟出拥挤场景中的复杂关系；

制作拥挤行人重识别的数据集Market‑1501‑Crowded的步骤如下：步骤1‑1：利用deeplabv3_resnet101模型识别原始数据集的所有图片，并只保留人物的部分，其他部分置为0；

步骤1‑2：将步骤1‑1中的图片中人物部分占据图片55％的图片转到另一个文件夹；

步骤1‑3：手工删除步骤1‑2中的识别效果较差的图片；

步骤1‑4：将步骤1‑3中的图片，以每个图片为基准，随机将其他图片中的人物合并进来；

步骤1‑5：手工删除步骤1‑4中的合并效果较差的图片；

步骤1‑6：利用合成的效果较好的图片，替换原来的数据集图片；

为了模拟人员拥挤的多样性，待合成图片中，50％的比例新加入人物在原始人物的身前，另外50％的比例新加入人物在原始人物的身后；待合成图片人物记为p1，完整图片记为b1，新加入人物图片记为p2；

当新加入人物图片在原始人物之前，合成步骤如下：

步骤1‑4‑1：p2随机放大10％～30％，并将p2中点置于b1中点下方10～30％，左右偏离40～70％，以满足近大远小且不至于完全遮盖p1的效果；

当新加入人物图片在原始人物之后，合成步骤如下：

步骤1‑4‑2：忽略步骤1‑4‑1，p2随机缩小10％～30％，并将p2中点置于b1中点上方10～

30％，左右偏离30～60％，以满足近大远小且不至于完全被p1遮盖的效果；

步骤1‑4‑3：将p1覆盖在步骤1‑4‑2输出的图片上，以满足p1在p2之前的效果；

由于p1和p2只保留了人物图片，人物周围为黑色，因为其值被设置为0，而为了不把整张图片染成黑色，因此在覆盖时需要注意忽略p1和p2为0的值；

所述步骤4中利用OpenPose模型，对于一张给定的图片I，该模型会输出该图片对应的m个节点并将其视为每张图片中人物的肢体关键点集合；

步骤5中为了在深度神经网络中利用上步骤4中输出的节点集合，需要将其转化为高维度特征向量所述步骤6中，关系图注意力网络的输入是一个由步骤5中获得的高维度特征向量j'和k个关系表示组成的图，高维度特征向量j'共有m个节点信息，而k个关系，理解为k条边；用(r)表示输入的特征向量矩阵；用W 表示关系矩阵，最后的特征矩阵表(r)

示为H ，其计算公式如式(1)：

(r) (r)

H ＝J'×W (1)

(r) j'×j' (r)

和W ∈R 都是可学习的参数；对于H 的每一个节点把其相邻的索引集记为它在基于其相邻节点的加权和与所有关联边的影响下，在关系图注意力网络之后更新，其计算公式如式(2)：其中，是第i个和第j个节点的注意力得分，σ是Sigmoid激活函数，SM代表Softmax激活函数；最后，通过计算节点表示的平均值来聚合图形以获得形状嵌入s，其计算公式如式(3)：所述步骤7中形状引导的特征增强模块；该模块操作如下：在第一阶段，让步骤6输出的形状特征s充当查询，而由步骤3输出的图片池化特征F充当键和值，其计算公式如式(4)：Q＝Wq(s),K＝Wk(F),V＝Wv(F)(4)其中，Wq、Wk与Wv分别是查询、键和值的注意力矩阵；Q和K之间的相关性分数用于在V中搜索与形状直接相关的特征，然后通过正则化、批归一化，再与形状特征执行特征融合，其计算公式如式(5)：T

ffused＝Wn2(BN(Norm(QK)V))+s(5)其中，ffused表示混合了形状特征的外观特征，Norm表示正则化，BN表示批归一化，Wn2表示深度神经网络的系数矩阵；考虑到ffused包含了与形状有关的形状辨别信息和外观辨别信息，在第二阶段的注意力机制中有效地作为查询，有助于获取与身体形状直接和间接相关的外观特征；作为第二阶段注意力的查询特征，ffused在确定是否可以从外观特征中有效提取与形状直接和间接相关的身份特征方面发挥关键作用；为了确保查询ffused的可辨识性，本发明还采用交叉熵损失和加权正则化的三元组损失(WRT)损失来共同约束GeM(ffused)，其中GeM表示GeM池化层，其计算公式如式(6)和(7)：1

其中，为第一阶段的交叉熵损失的结果，batchnum为一个批次的采样数量，FC为全连接层，其输出结果将作为预测的概率，qi是该图片真是标签是否为i，具体而言是为1，不是为0；为第一次WRT损失的结果，对于图片i而言，j为正例，即身份相同的人，k为负例，di,j为图片i和图片j的欧式距离；

在第二阶段，将第一阶段注意力机制的输出特征ffused作为查询，以强调与身体形状直接和间接相关的外观特征，仍然将步骤3输出的图片池化特征F充当键和值，并执行和第一阶段一样的交叉注意力计算与特征融合操作，从而获得更加深度融合的与关键行人相关的特征ffinal，同样也以交叉熵损失和WRT损失来共同约束GeM(ffinal)，其计算公式如式(8)和(9)：则网络总损失可表示为公式(10)所示，其将作为最后的损失函数，约束模型的训练过程；

其中，λ为超参数，在实验中单独设置。