1.一种基于相机差异的调度序列及训练的行人重识别方法,其特征在于,所述方法包括:步骤1、获取用于行人重识别模型的训练数据集,按照相机的不同进行分组,以获取每个相机对应的训练数据集;
步骤2、将步骤1中每个相机对应的训练数据集分别输入到特征提取网络中,进行预训练,得到训练后的特征提取网络;
步骤3、通过步骤2中训练后的特征提取网络对每个相机的特征进行提取,获得每个相机对应的相机特征,将其表示为 ;
步骤4、将步骤1中每个相机对应的训练数据集分别输入至卷积神经网络中,进行训练,获得线性映射层的输出和每个相机的平均精度mAP值,将每个相机的mAP值表示为;
步骤5:将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,获得具有相机特色的特征,并将其分别输入至卷积神经网络进行训练,获得融合相机特征后的平均精度mAP值,并表示为 ;
步骤6:将步骤4中未融入相机特征所得到的mAP值作为分子,将步骤5中融合相机特征后的平均精度mA P值作为分母,得到每个 相机的特征权重,其表 示为,即特征权重为 , ,d表示相机的身份标识;根据
每个相机的特征权重,确定相机特征调度序列;
步骤7:通过步骤6中相机特征调度序列,首先将所有相机的图像输入初步的卷积神经网络中得到初步特征,然后根据每个相机的特征权重获取最大的特征权重,将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,将此新特征作为下一个网络的输入;如此循环,按照从大到小依次选择每个相机的特征权重,并将其与上一个经过卷积神经网络后得到的特征进行融合,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到卷积神经网络,得到预测结果;
所述步骤2包括:
对特征提取网络进行预训练,通过交叉熵损失和三元组损失对特征提取网络进行优化;
其中,交叉熵损失包括:骨干网络提取的特征首先通过线性分类器生成分类概率数值,接着用归一化指数函数softmax进行归一化,计算对数似然损失,其计算公式为:,其中B表示小批量中的图像数量,E表示分类权重,U表示
类别数, 表示第i个行人的图像, 表示第i个行人的特征, 和 分别表示第i个行人和第j个行人所预测的所有标签;
三元组损失的计算公式为:
;
其中, , , ,P表示行人的类别数,K表示同一行
人图像的数量, 表示一个正负样本对之间距离的超参数, 、 和 分别表示样本、最难的正样本、最难的负样本;其中,最难的正样本指最容易分错的与样本同属于一个人的图像,而最难的负样本指最容易分错的与样本属于不同人的图像;
所述步骤4包括:
每个相机对应的训练数据集经过卷积神经网络后,得到分类结果,并根据分类结果计算平均精度mAP值,其中数据样本图像特征映射为向量的形式,并且增加初始化的类别特征,线性映射层的输出为 ,其中 表示全部数据集的类别特征, 至 均表示局部特征;mAP值用于反应检索的人在数据库中所有正确的图像排在序列表前面的程度;mAP值的计算公式如下:;
其中, , ;R表示行人的身份标识id,M表示身份标识id
为i的行人的图像数量; 表示在数据库正确率从大到小排序的图像中身份标识id为i的行人,第j个正确的图像加上前面所有的图像的数量;计算得到所有相机的mAP值,将其表示为;
所述步骤6包括:
将得到的每个相机的特征权重根据大小进行排序,若 的取值小于或等于1,则保留此相机特征,若 的取值大于1,则舍去此相机特征;将保留下来的特征权重再次根据从大到小排序,并根据相机种类的序号数得到相机特征调度序列。
2.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
给定输入图像 ,其中,H、W、C分别表示高、宽、通道数;给定输入相机 ,其中, ,用于表示相机种类的序号数,数据样本大小均为256×128,首先对采集到得数据样本图像进行预处理,生成预处理后的数据样本图像,预处理包括水平翻转、填充、随即裁剪,随后将预处理后的数据样本图像水平分成6个部分。
3.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
经过预训练后的特征提取网络具备特征提取与分类能力,训练数据集中的图像相机标签已知,按照相机标签进行分组,分别获取每个相机特点对应的特征,每个相机特征表示为,并将每个相机对应的相机特征储存在相机特征存储器中。
4.根据权利要求1所述的方法,其特征在于,所述步骤5包括:
将步骤3中每个相机对应的相机特征与步骤4中的线性映射层的输出进行融合,其表达公式为: , ,其中, 表示相机id为i的类别特征, 表示相机 id为i的相机特征, 至 均表示局部特征;经过卷积神经网络得到融合各个相机特征后的mAP值,表示为 。
5.根据权利要求1所述的方法,其特征在于,所述步骤7包括:
首先将所有相机的图像输入具有三层的卷积神经网络中,得到初步特征,其中卷积神经网络包含卷积层、批量归一化层以及激活层,卷积层中卷积核大小为3×3,激活层的激活函数为ReLU函数,此时线性映射层的输出为 ;按照从大到小顺序选择每个相机的特征权重,首先将最大的特征权重对应的相机特征与初步特征进行融合,以形成新特征,融合后的特征映射表示为 ,其中表示全部数据集的类别特征, 表示相机特征,每次注入一个相机特征, 至均表示局部特征,将融合后得到的特征作为输入再次经过三层的卷积神经网络,并将经过卷积神经网络后得到的特征与第二大的特征权重对应的相机特征进行融合,再次得到新的融合特征;如此循环,以至将每个相机的特征全部融合后,获得最终特征;将最终特征再次输入到三层的卷积神经网络,经过池化层和全连接层后得到预测结果,其中池化层为全局平均池化,其预测结果用于对跨多个相机的行人重识别身份进行匹配。