利索能及
我要发布
收藏
专利号: 2020106723989
申请人: 广西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于批次分块遮挡网络的行人再辨识方法,其特征在于,包括如下步骤:

1)分集:将已知的行人再辨识数据集Market‑1501和DukeMTMC‑reID中的图像分为训练数据集和测试数据集;

2)预处理:将训练数据集和测试数据集中的所有图像进行统一尺寸裁剪,将完成裁剪后的训练数据集图像顺序打乱,测试数据集中的图像不做其余处理,为需要辨识的每个行人在训练数据集中随机选择k张图像,组成小训练批,其中k=32或64;

3)预训练:利用训练数据集对ResNet‑50网络进行预训练,初始化ResNet‑50网络中的参数,对输入的行人图像进行特征提取,预训练的步骤如下:

3‑1)将步骤2)中完成裁剪的训练数据集图像输入到ResNet‑50网络中,训练数据集图像首先经过ResNet‑50网络中一个步长为2的7×7卷积和一个池化层,得到特征图1;

3‑2)将特征图1输入ResNet‑50网络的第一卷积层,经过3个步长为1且内核大小为1×1的残差模块,输出特征图2;

3‑3)将特征图2输入ResNet‑50网络的第二卷积层,经过4个步长为1且内核大小为3×3的残差模块,输出特征图3;

3‑4)将特征图3输入ResNet‑50网络的第三卷积层,经过6个步长为1且内核大小为3×3的残差模块,输出特征图4;

3‑5)将特征图4输入ResNet‑50网络的第四卷积层,微调ResNet‑50的网络结构,即在ResNet‑50网络的第四卷积层不使用下采样操作,所以经第四卷积层后特征图4大小不变,经过4个步长为1且内核大小为3×3的残差模块,输出特征图5;

4)输入:ResNet‑50网络第四卷积层之后称为全局分支,将步骤3‑5)中1/2数量的特征图5作为全局分支的输入,依次经过1×1卷积层、批处理归一化层和ReLU层得到特征图S;

5)构建批次分块遮挡模块:构建的批次分块遮挡模块由两个包含不同擦除模块的Part 

1分支和Part 2分支组成,Part 1分支中的批量擦除层会随机擦除张量中的同一区域,将擦除区域内所有位置的值都归为0;Part 2分支则会先将输入的特征图均分成上下两块,然后在每一块中随机地遮挡一小块,即将遮挡区域内的所有值设为0,以步骤3‑5)中另外1/2数量的特征图5作为批次分块特征遮挡模块的输入,然后利用全局最大池化得到2048维的特征向量,最后利用三元组损失和softmax损失将特征向量的维度从2048维降到1024维,设单批输入图像经part 1分支在特征图上应用擦除处理后计算得到的特征图为T,设经part 2分支在特征图上应用擦除处理后得到的特征图为T';

6)构建批次分块遮挡网络模型:在步骤3)的ResNet‑50网络的第四卷积层后添加一个批次分块遮挡模块,即完成批次分块遮挡网络模型的构建,批次分块遮挡网络模型即为行人再辨识网络模型;

7)训练行人再辨识网络模型:使用步骤4)的特征图S、步骤5)中的特征图T和特征图T'通过三元组损失和softmax损失函数对步骤6)中的批次分块遮挡网络模型进行优化,循环执行步骤7),直至损失值收敛;

softmax损失函数表示如下:

其中,B表示小训练批次样本数量, 表示输入图像xi经过Softmax层计算的样本属于真实类别yi的预测概率;

三元组损失函数表示如下:

其中, 表示的是正样本图片和标准图片之间的欧式距离度量,

表示的是负样本图片和标准图片之间的欧式距离度量,α是指x_a与x_n之间的距离和x_a与x_p之间的距离之间的最小间隔,右下角的+号表示 []内的值大于零的时候,取该值为损失,小于零的时候,损失为零;

8)计算总训练损失:采用三元组损失函数和Softmax损失函数计算总训练损失,总训练损失为三元组损失函数和Softmax损失函数在全局分支和批次分块遮挡分支上的总和;

总训练损失表达式如下:

L=Lg+λ1L1+λ2L2,

其中,Lg表示全局分支上的损失,L1和L2分别代表特征删除分支上Part 1分支和Part 2分支的损失,λ1和λ2分别为控制part 1分支和part 2分支的权重,λ1和λ2均设置为1;

9)测试:将测试数据集输入到步骤7)训练后的行人再辨识网络模型中,行人再辨识网络模型读取测试数据集中的图像后,输出辨识结果,通过比较输出辨识结果与输入图像标签的泛化误差,来验证行人再辨识网络模型的训练效果和性能;

10)比较特征距离:从实时采集的视频中筛选出所有的行人图像组成候选库,并将候选库中的图像和待查询行人图像全部送入到批次分块遮挡网络模型中进行辨识分类,并比较它们之间的特征距离;

特征距离采用欧氏距离表示:

其中,x表示侯选库图像,y表示待查询行人图像,x1表示侯选库图像像素点的横坐标,x2表示侯选库图像像素点的纵坐标,y1表示待查询行人图像像素点的横坐标,y2表示待查询行人图像像素点的纵坐标;

11)完成再辨识:按照特征距离从小到大的顺序对实时采集的视频中筛选出所有的行人图像进行排序,排序从前到后相似性依次减小,即排位第一的训练图像是与待查询行人图像为同一行人的图像,找出指定对象的所有行人图像,从而完成行人再辨识。