1.基于视频的并行时空注意力行人重识别方法,其特征在于,步骤如下:步骤一、获取视频帧:从数据集的每段视频中选取出T帧视频,其中视频帧数T为超参数;
步骤二、提取视频帧中的初级空间特征:将步骤一中提取的视频帧输入到初级空间特征提取网络中,首先使用卷积网络分别提取每一帧中的初级空间特征si,i=1,2…,T,然后按照视频帧的顺序将初级空间特征si拼接在一起,构成该段视频的初级空间特征集合S={s1,s2,…,si,…,sT};
所述步骤二中,初级空间特征提取网络的构建方法是:
以ResNet网络为基础,使用ResNet50网络中前4层conv1至conv4提取视频帧中行人的初级空间特征,在初级空间特征提取网络的训练阶段,首先将ResNet50网络在ImageNet数据集上进行预训练,并在行人重识别数据集MARS上进行微调,利用微调后的ResNet50网络实现初级特征的提取;
步骤三、提取行人时序特征:将步骤二中生成的初级空间特征集合S输入到时序特征提取模块中,在时序特征提取模块中首先使用卷积网络进一步提取行人的空间特征,然后构T×T建全局时序注意力模块,计算时序注意力权重Wt∈R ,最后对视频帧进行加权融合生成行人的时序特征ft;
所述步骤三的具体过程为:
输入初级空间特征集合S,首先使用二维卷积神经网络来进一步提取行人的空间特征,并压缩每一视频帧的空间尺寸到1*1,从而得到特征矩阵M;对M分别使用一维卷积神经网络T×1提取视频帧中的时序信息,得到时序特征θ∈R 和时序特征 然后将θ和 进行矩T×T阵乘积并经过Softmax操作得到时序注意力权重Wt∈R ,即M=Conv2d(X)
θ=Conv1d(M)
其中Conv1d为一维卷积神经网络,Conv2d为二维卷积神经网络;另外使用空间平均池化的方法从初级空间特征集合S中压缩空间尺寸到1*1从而得到特征矩阵P;最后将特征矩阵P与权重矩阵Wt进行矩阵相乘,并在时序上使用平均池化获得行人的时序特征ft;
步骤四、选取权重最高的视频帧:按照步骤三中产生的时序注意力权重对视频帧进行排序,根据排序结果选取出权重最高的前N帧视频帧;
所述步骤四中,选取权重最高的视频帧的具体过程为:
首先对步骤三中产生的时序注意力权重Wt矩阵进行按列求和,获得选择矩阵W,然后对选择矩阵W按照数值大小进行排序并记录最大的前N帧视频帧的编号,最后根据编号选择对应前N帧视频帧送入空间特征提取模块进行进一步的特征提取;
步骤五、使用并行空间特征提取模块提取行人空间特征:将步骤四选取出的权重最高的前N帧视频帧所对应的初级空间特征si∈S分别输入到空间特征提取模块中;在空间特征提取模块首先使用空间卷积注意力模块计算每帧的空间注意力概率分布Ws,然后使用该空间注意力概率分布与该帧的初级空间特征进行加权融合得到加权后的空间特征矩阵 最后对生成的空间特征使用卷积操作和空间上的平均池化计算出权重最高的前N帧视频帧最i终的行人空间特征fs ,i=1,2,…,N;
步骤六、融合行人特征:将步骤三中产生的行人时序特征ft和步骤五中产生的N个行人i空间特征fs ,i=1,2,…,N使用矩阵拼接的方式沿通道方向融合为最终的行人特征;
步骤七、模型训练:采用三元组损失函数和交叉熵损失函数作为该模型的目标函数,训练得到并行时空注意力网络模型;
所述步骤七中,模型训练的方法为:
采用三元组损失函数和交叉熵损失函数作为目标函数;对提取出的时序特征ft和N个行i人空间特征fs ,i=1,2,…,N分别使用三元组损失进行训练;另外获取到时序特征和空间特征后分别使用全连接层获得行人的ID,然后使用交叉熵损失函数进行训练;通过对每部分特征进行分别训练可以获得更具有差异性的行人特征,增强模型的鲁棒性。