1.一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,包括以下步骤:S1:输入视频序列中的三幅图像,分别为源域模板图像、搜索图像与动态模板图像,并使用主干网络SwinTrans进行特征提取;
S2:将主干网络SwinTrans提取的特征向量进行预处理得到融合序列以及定位向量序列,并输入到Transformer架构中的编码注意增强层,编码注意增强层捕获融合序列和定位向量序列中所有元素之间的特征依赖关系,并用全局上下文信息强化原始特征,利用跟踪器学习用于对象定位的判别特征,计算得到特征增强序列;在解码层以定位向量序列与特征增强序列作为输入,进一步进行特征序列融合计算;
S3:将特征序列输入预测头模块进行序列重构,并输出到全卷积网络FCN中,继而通过计算角点概率分布的期望得到预测框坐标,其中预测头模块采用三层感知器来预测目标预测框坐标;
S4:预测头模块根据预测框坐标得到所需跟踪单个目标的矩形框,若满足多步动态更新策略,则使用预测头输出的目标位置的图像去更新动态模板图像,并将动态模板图像替换源域模板图像;若不满足多步动态更新策略,则维持动态模板图像与源域模板图像,继续沿用上一帧图像;最终实现对视频序列中单目标的跟踪。
2.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤1具体为:S1.1:所述搜索图像的尺寸为模板图像的4倍,动态模板图像的尺寸与模板图像相同;
如果当前帧为视频的第一帧,则目标的位置为已知的,即人为指定目标在第一帧中的位置,则为模板图像与动态模板图像;
S1.2:如果当前帧不是视频的第一帧,则以上一帧目标的位置为中心点,裁剪出图像块,其大小为目标大小的4倍;
S1.3:SwinTrans主干网络分为三层Trans以及一层多层感知神经网络MLP,首先将图像大小都调整为 ,并相继输入到Trans‑1块,Trans‑2块、Trans‑3块中进行跨尺度特征融合得到 大小的自适应融合纹理特征序列,然后再输入到MLP中。
3.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤2具体为:S2.1:预处理:使用MLP瓶颈层将通道数从C降低到D,并将特征映射沿空间维度进行平面化和连接,从而产生一个长度为 ,维度为D的特征序列,其中HW为宽高,z为模板区域,x为搜索区域,s为通道层数;计算公式如下:;
其中 是Trans‑2块、Trans‑3块输出的特征维度序列分别为 , ;
S2.2:将上述得到的序列作为编码注意增强层的输入,编码注意增强层由N层编码器组成,每层编码器由一个带有前馈网络的多头自注意增强模块组成;
S2.3:多头自注意增强模块:该模块接受一个查询向量组和一对键值向量组作为输入,分别为 ;该模块是在传统注意力模块中引入另一个注意模块来提高相关映射M的质量;公式如下:;
其中W为线性变换权重,Softmax为矩阵点积操作;再通过外注意模块进行计算,公式如下: ;
S2.4:解码层将定位向量Query以及编码注意增强层计算出的特征增强序列作为输入,经过计算得到特征融合向量;解码器堆叠M个解码器层,每个解码器层由自注意、编码器‑解码器注意和前馈网络组成。
4.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤3具体为:S3.1:首先从编码注意增强层的输出序列中提取搜索区域特征,然后计算搜索区域特征与解码层的输出特征融合向量之间的相似度;
S3.2:将相似度分数与搜索区域特征进行元素相乘得到一个新特征序列,将它重构为特征映射 ,并将其输入到全卷积网络FCN中;
S3.3:全卷积网络FCN将输出边界框的左上角和右下角输出两个概率图 、;最后通过计算角点概率分布的期望得到预测框坐标,计算公式如下:
;
S3.4:跟踪器以端到端方式进行训练,并结合了Loss和广义IoU Loss损失函数计算公式如下:;
其中 分别表示真实值和预测值, 为训练时需要调整的超参数;
在整个跟踪过程的每一帧中,网络架构从当前帧中选取一个搜索区域作为输入,并返回预测框作为最终结果。
5.根据权利要求1所述的一种注意力增强的时空Transformer视觉单目标跟踪方法,其特征在于,步骤4具体为:S4.1:在预测头前添加分数预测判,如果得出相似度分数高于阈值 ,则启用多步动态更新策略,否则不启用;
S4.2:启用多步动态更新策略指使用本次预测图像替换掉动态模板图像,并使用动态模板组中相似度分数最高的图像替换源域模板图像,最后将此次的预测图像存入动态模板组;动态模板组设定保存最近三十帧的图像以及其相似度分数,用以保证图像中目标形变不会发生较大变化;
S4.3:进行动态模板图像的更新替换时,动态模板图像需要将预测图像进行裁剪,符合动态模板图像输入的需求;若未启用多步动态更新策略,则动态模板与源域模板图像均不发生改变。
6.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1‑5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。
7.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑5中任一项所述的注意力增强的时空Transformer视觉单目标跟踪方法。