1.一种基于孪生网络的快速视频目标跟踪方法,其特征在于,所述方法包括:利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支,得到目标跟踪网络模型SiamRCCA;
设定相似性响应图的损失掩码Maskn×n,并在离线训练SiamRCCA模型时根据Maskn×n提高难分样本损失值的权重;所述相似性响应图的损失掩码Maskn×n为:Maskn×n=Norm(Relu(Vn×n‑Vn×n[t]))其中,Norm(·)为归一化操作,Vn×n为相似度响应值图,大小为n×n;Vn×n[t]为SiamRCCA模型对真实目标点t的响应值;Relu(·)为激活函数;
采用离线训练完成后的SiamRCCA模型进行目标跟踪;
所述利用残差连接和通道注意力机制改进SiamFC孪生网络模型的模板分支,包括:对SiamFC孪生网络模型的模板分支的第二层卷积特征F2,256*12*12进行下采样操作,得到下采样特征F2d,256*6*6;
对模板分支所提取到的首帧目标特征Fori,256*6*6,通过全局平均池化和全连接层,确定相应特征通道权重并捕捉各特征通道和其相邻k=3个通道之间的依赖关系,得到1*256维度的通道加权系数C1*256;
利用C1*256对Fori,256*6*6各对应特征通道进行加权,通过残差连接将加权后所得特征和下采样特征F2d,256*6*6进行线性融合,得到最终的模板分支特征;
所述方法包括:
(1)同时迭代训练SiamRCCA模型的模板分支和搜索分支,训练时通过所述损失掩码提高难分负样本的损失值权重;
(2)输入视频帧序列和第1帧图像N1的目标位置(X1,Y1,H1,W1),其中X1为目标中心位置横坐标,Y1为目标中心位置纵坐标,H1为跟踪边界框高度,W1为跟踪边界框宽度;
(3)通过SiamRCCA模板分支提取第1帧图像N1的目标特征F1;
(4)对于视频帧序列第t帧图像Nt,取(Xt‑1,Yt‑1,3Ht‑1+Wt‑1,3Wt‑1+Ht‑1)区域作为搜索框,并将搜索框分别放缩尺度S1、S2、S3后截取三个不同大小的候选域,并将所有候选域统一双三次插值为255×255大小,得到三个相同大小的搜索域;
(5)通过SiamRCCA搜索分支提取上述三个搜索域的深度特征,并分别计算与目标特征F1的相似度响应,得到响应图分别记为:Response1、Response2、Response3;
(6)计算最大响应值所对应的响应图Responsek和放缩尺度Sk,k∈{1,2,3};
(7)利用余弦窗对Responsek进行边缘响应值抑制;
(8)通过放缩尺度Sk和进行边缘响应值抑制处理后的Responsek的最大值位置计算当前帧目标位置(Xt,Yt,Ht,Wt);
(9)重复步骤(4)~(8),直至当前序列所有帧跟踪结束,以确定目标在当前帧中的位置;
模型训练所使用损失函数L(Yn×n,Vn×n)为:
μ为控制损失掩码在损失值计算中的影响系数,Vn×n[i]为SiamRCCA模型输出的相似性响应图中的第i点的响应值;Yn×n[i]∈[0,1]为相应点真实样本类别,其中1为正样本中心区域点,其余为0;Maskn×n[i]为SiamRCCA模型输出的相似性响应图中的第i点对应的损失掩码;
迭代训练SiamRCCA模型的模板分支和搜索分支时,设定训练学习率初始值为0.01,衰减系数为0.8685,训练50个epoch,模型激活函数为Mish,采用随机梯度下降优化策略对最小化损失函数L(Yn×n,Vn×n)进行优化,其中:Yn×n为真实样本分布,Vn×n为SiamRCCA模型输出的相似性响应值图;
所述Norm(·)为:
其中,S为归一化的向量。
2.根据权利要求1所述的方法,其特征在于,所述尺度S1、S2、S3分别取值:‑1
S1=1.0572 ,S2=1,S3=1.0572。
3.根据权利要求2所述的方法,其特征在于,对Responsek进行边缘响应值抑制时,余弦窗权重系数设置为0.2356。
4.根据权利要求1‑3任一项所述的方法,其特征在于,该方法应用于人机交互、智能机器人、自动驾驶、视频监控和智慧城市中。