1.一种基于多尺度图像及特征层对齐的跨分辨率行人重识别方法,其特征在于,包括以下步骤:(1)对跨分辨率样本视频进行预处理,将视频分割为连续的帧,并统一图像尺寸,选取高分辨率行人图像样本和低分辨率行人图像样本;
(2)对高分辨率行人图像样本进行多尺度下采样,得到不同分辨率尺度图像,将不同分辨率尺度图像连同原始图像一起输入到级联的多尺度图像重构网络,其中各级图像重构网络的分辨率尺度递增,且前一级图像重构网络的输出作为后一级图像重构网络的输入,得到多尺度的重构图像,并计算图像重构网络的损失函数,在设置的训练批次下对多尺度的图像重构网络进行训练;
(3)每个尺度的重构图像输入到与对应级别图像重构网络连接的行人重识别网络,提取对应尺度下重构图像的特征,各个尺度下提取的特征拼接作为行人重识别网络的输出,并根据输出结果计算行人重识别网络的损失函数,在设置的训练批次下对行人重识别网络进行训练;
(4)将待识别的视频分割为连续的帧,并统一图像尺寸,获取高分辨率图像和低分辨率图像,将高分辨率图像进行多尺度下采样后连同低分辨率图像一起,输入到训练好的图像重构网络,得到各尺度重构图像,再分别输入到对应的训练好的行人重识别网络,提取各个尺度下的特征并进行拼接,得到最终的行人特征表示;
其中,对高分辨率行人图像样本进行多尺度下采样包括:对每张图像进行下采样操作并生成三张具有不同分辨率的图像,所使用的下采样系数从 中随机选择,所对应的分辨率分别记为 、 和 ,之后使用双线性插值上采样方法对经下采样的图像拉伸至原来的尺寸,对应图像分别记为 、 和 ;
所述级联的多尺度图像重构网络包括具有相同网络结构但不进行权值共享的三个图像重构网络,每个图像重构网络包括一个编码器和一个解码器:编码器用于从图像中提取特征表示,其由两部分组成,每个部分包含了四个卷积层,第一个卷积层的输出结果和第四个卷积层的输出结果被连接起来作为这部分的输出;解码器由两个反卷积层组成,用于将编码器提取的特征重建成图像;
对于每张输入图像,依次通过三个图像重构网络生成三张具有不同分辨率的新图像,代替原始图像进行特征提取;
图像重构网络的损失函数由每一级图像重构网络的输出图像与对应分辨率尺度图像之间的距离的总和构成,所述距离采用均方误差来衡量。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,每帧图像的尺寸都裁剪为包含256*128个像素,选取高分辨率行人图像样本和低分辨率行人图像样本,将所有图像样本转换为张量的数据形式,使用通道均值和标准差进行标准化,再将张量归一化为(0,1)之间。
3.根据权利要求1所述的方法,其特征在于,所述行人重识别网络采用ResNet‑50作为骨干网络,骨干网络输出的张量被平均池化层水平地分成4个局部特征,并拼接作为行人重识别网络的输出。
4.根据权利要求1所述的方法,其特征在于,每个行人重识别网络的损失函数由标签平滑交叉熵损失和三元组损失的和构成。
5.根据权利要求4所述的方法,其特征在于,标签平滑交叉熵损失定义如下:,
其中 是根据特征表示 预测的属于分类c的评定值, ,所述特征表
示 是行人重识别网络i提取出的特征,h是行人重识别网络提取出的局部特征索引,H是局部特征个数;C是训练集中行人身份的总数, 是经过平滑的标签属于分类c的真实分布,记为:,
其中l是当前图像的真实行人身份标签,是用来控制标签放宽程度的参数, 。
6.根据权利要求4所述的方法,其特征在于,三元组损失定义为:
,
其中 是锚点图像经过行人重识别网络i得到的特征表
示, , 是锚点图像的第h个局部特征,H是局部特征个数, 和 分别
为最难正样本和最难负样本的特征,m为超参数间隔, 是两个特征表示之间的欧几里得距离。