1.一种基于区域感知注意力的目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤1、在孪生双分支结构下,基于区域感知编码器模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
步骤2、采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
步骤3、从模板特征中获取目标区域特征,并将目标区域特征输入到模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型优化模块中,经过迭代优化获得最终的目标模型;
步骤4、将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
步骤5、以采集的大量跟踪数据为基础重复步骤2至步骤4,对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
步骤6、利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪;
在所述步骤2中,区域感知注意力特征提取器由三个阶段组成,每个阶段堆叠了不同块数的区域感知编码器,堆叠块数分别为4、12和4,三个阶段的输出特征尺寸分别为、 以及 ,其中,H、W和C分别表示高度、宽度和通道数,其中H和W由输入图像大小确定,C为手动确定;
在所述步骤2中,利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征的方法具体包括如下步骤:给定输入图像,将输入图像经过深度可分离卷积下采样后,获得局部增强特征;
对局部增强特征进行批量归一化,将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算,进而获得全局上下文特征;
将全局上下文特征进行批量归一化后输入到多层感知器中,在多层感知器中依次通过全连接层以及relu激活函数后,得到特征图;
采用上一阶段输出作为下一阶段输入的方式,分别以训练集、测试帧作为输入图像循环上述步骤3次,获得模板特征和搜索特征;
将批量归一化后的局部增强特征输入到区域感知注意力模块中进行注意力计算的方法具体包括如下步骤:所述区域感知注意力模块包含区域分割,区域感知以及注意力计算三个模块,将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域;
区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域;
对保留的区域进行细粒度的注意力计算,获得全局上下文特征;
将批量归一化后的局部增强特征通过区域分割模块划分为等同大小的区域的方法具体包括如下步骤:给定一张二维的批量归一化后的局部增强特征 , ,然后将 平均分割为N×N个不重叠的局部区域,并且对其进行平铺操作生成特征 ,其中,, 表示矩阵维度;
经过线性投影分别生成查询点 、关键点 以及价值点 ; , , 的生成表达式为:;
其中, 、 、 分别表示生成 、 、 的线性投影权重矩阵;
区域感知模块以区域为单位计算区域关系图,并且在区域关系图中过滤掉不相关的区域,只保留具有密切联系的区域的具体包括如下步骤:对所述 、 以区域为单位分别进行平均计算,分别生成 、 , ,、 生成表示式如下:
;
其中, 表示全局平均函数, 和 分别表示 、 的区域级特征映射;
将 与 进行相乘,得到区域级关系图 , ,区域级关系图 的生成表示式如下:
;
其中, 表示矩阵相乘,T表示矩阵转置操作;
根据区域的相似度关系对区域级关系图 进行过滤操作,将区域级关系图 中相似度低的区域过滤掉,仅保留前M个相似度最高的区域,根据区域的相似度关系对区域级关系图进行过滤操作的过程存在如下关系式: ;
其中, 表示区域级过滤函数, 表示区域级位置索引矩阵;
对保留的区域进行细粒度的注意力计算的方法具体包括如下步骤:利用所述区域级位置索引矩阵 ,在关键点 和价值点 中推导出相应的区域级特征映射,相应的区域级特征映射生成过程存在如下关系式:;
其中, 分别表示按照矩阵 的位置索引在 和 中筛选出的区域级特征映射,, 表示特征选择与堆叠操作;
对 与查询点 做矩阵乘法,并且进行随机裁剪操作,用于在训练阶段提高模型的泛化能力以及减少过拟合,得到权重矩阵,权重矩阵的生成表达式如下:;
其中, 表示 与 相乘后且经过裁剪的权重矩阵, 表示随机裁剪操作, 表示矩阵相乘,T表示矩阵转置操作;
对 进行归一化操作后与 做点积运算,并且加上通过深度可分离卷积进行局部增强的 后,获得最终的全局上下文特征,全局上下文特征生成表达式如下:;
其中, 表示全局上下文特征,D表示 的通道维度, 表示归一化指数函数,表示深度可分离卷积, 表示点积运算。
2.根据权利要求1所述的基于区域感知注意力的目标跟踪方法,其特征在于,在步骤3中,从模板特征中获取目标区域特征,并将目标区域特征输入到模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型优化模块中,经过迭代优化获得最终的目标模型的方法具体包括如下步骤:利用训练集中给定的目标边界框从模板特征中分离出目标区域特征;
以目标区域特征作为模型初始化模块的输入,模型初始化模块由卷积层以及ROI池化层组成,目标区域特征经过卷积层以及ROI池化层后,得到初始化模型;
将初始化模型输入到模型优化模块中,模型优化模块利用模板特征对初始化模型进行迭代优化,获得最优的目标模型,初始化模型的迭代优化过程存在如下关系式:;
其中, 表示第i次迭代优化后的目标模型, 表示模型 所对应的分类损失的梯度信息, 表示学习速率。
3.根据权利要求2所述的基于区域感知注意力的目标跟踪方法,其特征在于,在所述步骤4中,将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置的方法具体包括如下步骤:将目标模型与搜索特征作为目标分类器的输入,目标分类器由一个卷积层组成;
将目标模型作为卷积核与搜索特征做卷积运算,获得目标置信度得分,目标置信度得分的生成表达式如下:;
其中, 表示目标置信度得分, 表示搜索特征, 表示目标模型;
目标置信度得分 中最大值所在位置的索引即为目标所在位置。
4.一种基于区域感知注意力的目标跟踪系统,其特征在于,所述系统应用如权利要求1至3任意一项所述的一种基于区域感知注意力的目标跟踪方法,所述系统包括:网络构建模块,用于在孪生双分支结构下,基于区域感知编码模块构建区域感知注意力特征提取器;基于模型初始化模块以及模型优化模块构建模型预测器,基于卷积模块构建目标分类器;区域感知注意力特征提取器、模型预测器以及目标分类器共同构成目标跟踪模型;
特征提取模块,用于采集跟踪数据,跟踪数据由一系列视频序列组成,从跟踪数据中获取训练集和测试帧;测试帧为视频序列中即将要跟踪的图像,训练集由同一视频序列中多帧带目标边界框注释的图像组成;利用区域感知注意力特征提取器分别对训练集和测试帧进行特征提取,获得模板特征和搜索特征;
模型预测模块,用于从模板特征中获取目标区域特征,并将目标区域特征输入到模型预测器的模型初始化模块中获得初始化模型;将初始化模型以及模板特征输入到模型预测器的模型优化模块中,经过迭代优化获得最终的目标模型;
目标分类模块,用于将目标模型以及搜索特征输入到目标分类器中,获得目标置信度得分,并根据目标置信度得分确定跟踪目标所在位置;
离线训练模块,用于以采集的大量跟踪数据为基础对目标跟踪模型进行端到端的离线训练,得到训练好的目标跟踪模型;
目标跟踪模块,用于利用所述训练好的目标跟踪模型对视频序列进行目标在线跟踪。