1.一种基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间约简自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
步骤2、利用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
步骤3、初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
步骤4、将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
步骤5、通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
步骤6、将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪;
其中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征的方法具体包括如下步骤:将二维的模板图像特征 沿着空间维度重塑为三维输入标记 ,其中, ,,表示空间维度, 表示模板特征图的通道数,表示模板特征图的高度,表示模板特征图的宽度;
将三维输入标记 输入深度可分离卷积进行空间约简,将高度和宽度尺寸缩小倍,得到三维特征序列 ,其中, ,表示约简后的模板特征图的高度, 表示约简后的模板特征图的宽度,其中填充大小、核大小、步长分别为 ;
将三维特征序列 再沿着空间维度重塑,获得新的二维特征 ,其中, ,表示重塑后的空间维度;
对二维的模板图像特征 采用线性投影得到第一查询 ,对新的二维模板特征 进行线性投影得到重塑后的第一键 和第一值 ;
将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到编码后的特征模板。
2.根据权利要求1所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,倍率由特征图大小自适应设置,倍率 与特征图大小之间存在如下关系式:;
其中, ,表示键向量 的维。
3.根据权利要求2所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:;
其中, 分别表示第一查询、第一键和第一值,表示第 个注意力头, 表示编码部分的多头自注意力的计算, 表示编码过程中所聚合 个头所输出的特征图的结果,表示编码过程中第个注意力头的输出。
4.根据权利要求3所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将重塑后的第一键和第一值与第一查询进行多头自注意力计算,得到每个头的输出,每个头的输出的计算过程存在如下关系式:;
其中, 表示编码部分的单头自注意力的计算, 表示归一化函数, 表示实例归一化操作,表示矩阵转置, 表示键向量 的维度, 表示 卷积运算。
5.根据权利要求4所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,在所述步骤4中,将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征的方法具体包括如下步骤:对提取到的搜索区域特征进行线性投影得到第二查询、键向量和值向量;
降低键向量和值向量的空间尺度,得到空间尺度约简的第二键和第二值;
将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联,再进行线性投影,得到局部特征增强的搜索区域特征。
6.根据权利要求5所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,降低键向量和值向量的空间尺度的计算过程存在如下关系式:;
其中, 表示空间简约函数,表示搜索区域特征, , 分别表示搜索区域特征图的高度,搜索区域特征图的宽度和搜索区域特征图的通道数,表示空间尺度约简因子, 表示层归一化, 表示将输入的搜索区域特征重塑为 , 表示将重塑后的特征序列维度经过投影再度缩减到。
7.根据权利要求6所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,将每个头的输出串联的过程存在如下关系式:;
其中, 分别表示第二查询、第二键和第二值, 表示解码部分的多头自注意力计算,表示解码过程中第个注意力头的输出, 表示解码过程中所聚合 个头所输出的特征图的结果。
8.根据权利要求7所述的基于多头注意力优化特征融合网络的目标跟踪方法,其特征在于,将空间尺度约简的第二键和第二值与第二查询进行多头自注意力计算,得到每个头的输出,每个头的输出的计算过程存在如下关系式:;
其中, 表示深度可分离卷积运算, 表示解码部分的单头自注意力计算。
9.一种基于多头注意力优化特征融合网络的目标跟踪系统,其特征在于,所述系统应用权利要求1至8任一项所述的基于多头注意力优化特征融合网络的目标跟踪方法,所述系统包括:构建模块,用于:
在孪生网络框架下,基于ResNet骨干网络构建特征提取网络,基于高效多头自注意力构建Transformer编码器,基于高效多头空间简约自注意力构建Transformer解码器,Transformer编码器和Transformer解码器构成特征融合网络模型;
预训练模块,用于:
用大规模数据集,对特征融合网络模型进行预训练,并在训练过程中调整特征融合网络模型中的参数,以得到训练后的特征融合网络模型;
提取模块,用于:
初始化第一帧的模板图像以及后续搜索帧的搜索图像,利用特征提取网络分别对模板图像和搜索图像进行特征提取,得到模板图像特征和搜索区域特征;
学习模块,用于:
将模板图像特征输入Transformer编码器中,采用缩小模板图像特征在空间维度上尺度的方式进行多头自注意力计算,以对模板特征图中的特征进行学习,得到包含更少背景信息且特征表示能力更强的编码后模板特征;
将搜索区域特征输入Transformer解码器中,采用搜索区域特征降维的方式进行多头自注意力计算,以对搜索区域特征图中的特征进行学习,得到局部特征增强的搜索区域特征;
计算模块,用于:
通过多头交叉注意力对编码后模板特征和局部特征增强的搜索区域特征进行特征融合,以得到包含大量全局上下文信息的融合特征;
跟踪模块,用于:
将融合特征送入分类分支和回归分支上获取目标在搜索区域的最大响应位置以进行目标跟踪。