1.一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,包括以下步骤:步骤1:分别对模板图像与搜索图像进行预处理;
步骤2:将模板图像与搜索图像分别输入到孪生网络的模板分支与搜索分支,经过AlexNet提取到模板图像的特征与搜索图像的特征,然后以模板图像特征与搜索图像特征为输入分别经过两个互相关卷积后得到的两类特征,这两类特征一类输入到分类头对目标进行分类,一类输入到回归头对目标大小进行回归;还设计了一个交并比IoU预测器,该IoU预测器平行于回归头,预测所有正样本的Anchor与目标之间的IoU分数,然后将IoU分数与分类分数共同作为选取最终的Anchor的依据;
步骤3:采用为每一个Anchor对回归损失的贡献分配一个权重,这个权重正比于Anchor与目标之间的IoU,即当某个框与目标之间的IoU越大,那么相应的权重也越大,它对回归损失的贡献也越大;
步骤4:分别计算分类标签、回归标签与IoU预测器标签,然后将网络预测到的分类分数、回归坐标与IoU分数分别与对应的标签通过损失函数计算得到损失,然后通过随机梯度下降优化算法迭代训练得到最终的网络模型;
步骤5:在线跟踪阶段将网络预测到的每个Anchor的分类得分与预测到的每个Anchor的IoU得分相乘,在回归分支选择与得分最高的Anchor相对应的框,作为最后的预测结果。
2.根据权利要求1所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤1对模板图像与搜索图像进行预处理具体包括以下步骤:
1.1模板图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至127×127像素大小;
1.2搜索图像处理:在一个图像中,目标区域以目标区域以矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超出图像边界,超出部分用图像像素均值填充,最后将裁剪的目标图像块尺寸缩放至255×255像素大小。
3.根据权利要求1或2所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤2具体包括以下步骤:
2.1特征提取以5层结构的AlexNet为基础框架,其改动为:1)去掉整个AlexNet的padding和全连接层;2)网络的第一层、第二层内的LRN层用BatchNorm批归一化层替换;3)第三层与第四层中添加BatchNorm批归一化层;4)第五层中去掉ReLu修正线性单元层与MaxPooling最大池化层,并添加BatchNorm批归一化层;
2.2将预处理好的模板图像与搜索图像输入到该AlexNet网络分别得到模板图像特征与搜索图像特征;
2.3将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征经过两个1×1的卷积后得到的结果用于最后的目标分类;
2.4将模板图像特征经过一个3×3卷积运算得到的特征与搜索图像特征经过3×3卷积运算得到的特征进行一个深度互相关卷积,深度互相关卷积后的特征分别经过两个1×1的卷积得到两类特征,一类用于IoU预测,另一类用于目标坐标预测。
4.根据权利要求3所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3采用为每一个Anchor对回归损失的贡献分配一个权重具体包括以下步骤:
3.1根据IoU预测器得到的每一个Anchor与跟踪目标之间的IoU,作为回归分支中每一个Anchor对于回归损失权重的依据。考虑到整个回归损失不变,所有Anchor的权重被归一化到1;
3.2将得到的权重作用到每一个Anchor中,具体体现在权重w为每一个Anchor对回归损失的贡献进行重新加权。
5.根据权利要求4所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3.1将所有Anchor的权重被归一化到1,具体公式为:*
其中,w为Anchor对于回归损失的权重,i为IoU预测器输出的一个Anchor与目标之间的*
IoU,Npos为正样本个数,I 表示IoU预测器预测到的所有Anchor与目标之间的IoU的集合,sum()表示预测到的所有IoU之和。
6.根据权利要求5所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤3.2权重w为每一个Anchor对回归损失的贡献进行重新加权,具体公式为:其中,Lr为回归分支的总损失,wi为第i个Anchor的权重,Li为第i个Anchor的回归损失。
7.根据权利要求5所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤4具体包括以下步骤:
4.1计算分类标签:分类标签通过计算每一个Anchor与目标之间的IoU得到,当一个Anchor与目标之间的IoU大于0.6,则这个Anchor属于正样本,标签为1;当一个Anchor与目标之间的IoU小于0.3,则这个Anchor属于负样本,标签为0;当一个Anchor与目标之间的IoU在0.3到0.6之间,则在训练分类时,忽略掉这个Anchor,标签为‑1;
4.2计算坐标标签:回归分支不直接输出目标的坐标,而是得到通过如下公式换算后的坐标(δ[0],δ[1],δ[2],δ[3]):δ[0]=(Tx‑Ax)/Aw
δ[1]=(Ty‑Ay)/Ah
其中,Tx是目标矩形框的左上角x坐标,Ty目标矩形框的左上角y坐标,Tw是目标矩形框的宽,Th是目标矩形框的高,Ax是Anchor左上角x坐标,Ay是Anchor左上角y坐标,Aw是Anchor的宽,Ah是Anchor的高;
4.3计算IoU标签:IoU标签是用已回归后的Anchor与目标框计算IoU得到,首先把预测到的(δ[0],δ[1],δ[2],δ[3])还原成预测的目标坐标(Bx,By,Bw,Bh),还原公式为:Bx=δ[0]×Aw+Ax
By=δ[1]×Ah+Ay
Bw=exp(δ[2])×Aw
Bh=exp(δ[3])×Ah
利用还原后的预测坐标与Anchor计算得到的IoU即为IoU标签;
4.4根据步骤2的网络预测输出:分类分数、位置坐标、IoU分数,以及步骤3中的权重因子,计算整个模型训练的损失,采用随机梯度下降优化算法对模型进行迭代训练,分类损失采用交叉熵损失函数,回归损失采用smooth L1损失函数,IoU损失采用BCE损失函数;
4.5判断深度神经网络模型是否达到收敛条件,如果不是,回到步骤2;如果是,结束训练,获得训练好的深度神经网络模型。
8.根据权利要求7所述的一种基于交并比引导孪生网络的目标跟踪方法,其特征在于,所述步骤5具体包括以下步骤:
5.1在线跟踪时,图像视频或者图像序列的第一帧目标被选择作为模板图像,在整个跟踪期间,孪生网络模板分支通过模板图像预先计算并固定,后续帧输入搜索图像到孪生网络的搜索分支,然后网络预测每个Anchor的三个输出:分类分数cls、交并比分数iou与目标坐标loc;
5.2将分类分数与IoU分数相乘得到每一个Anchor最后的得分:score=cls×iou,选择最后score中得分最高的Anchor的坐标作为最后的跟踪结果。