利索能及
我要发布
收藏
专利号: 2025103168892
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于重跟踪策略的前景感知Transformer目标跟踪方法,其特征在于,方法包括以下步骤:接收最近帧模板图像和搜索区域图像,将最近帧模板图像和搜索区域图像输入预先构建的预处理层后分别生成模板token序列和搜索token序列,并将模板token序列和搜索token序列缓存至重跟踪缓存区;

将模板token序列和搜索token序列进行拼接,得到混合序列,将混合序列输入至预先建立的前景感知Transformer编码器内,得到输出序列,对输出序列中的搜索区域特征序列进行填充,将填充后的输出序列输入至预测头内,得到预测结果;

所述将混合序列输入至预先建立的前景感知Transformer编码器内后,采用前景增强多头自注意力模块提取融合混合序列的特征,并利用背景筛除模块筛选丢弃背景token;

所述用前景增强多头自注意力模块提取融合混合序列的特征的计算过程如下:式中,FEA 表示单个前景增强自注意力头的计算,q、k、v表示输入的查询向量、键向T量、值向量,Softmax 为激活函数,Maxj 表示注意力权重矩阵中每行前K个最大值,kT T表示混合序列键k的转置,是混合token序列的维度, 表示一个0值矩阵,kz和kx分别为模板序列键的转置和搜索序列键的转置,前景增强多头自注意力计算公式如下:式中,FEMSA表示前景增强多头注意力结果,Concat 表示拼接操作,headi表示第i个前景增强自注意力头的计算结果,前景增强多头注意力模块的输出与混合token序列M1残差相加,输入背景筛除模块;

将预测结果与预设预期值进行比较,若连续t帧的预测结果均低于预设预期值,则将预测结果存入重跟踪评估区,并将重跟踪缓存区内的模板token序列和搜索token序列输入通用Transformer编码器中跟踪预测,得到重跟踪的预测结果,在重跟踪评估区将预测结果与重跟踪的预测结果进行综合评估,得到最佳跟踪结果,并在线更新模板图像。

2.根据权利要求1所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特征在于,所述最近帧模板图像 ,其中模板图像高为Hz、宽为Wz、 表示实数集,最近帧模板图像被分割为多个边长为P的图像块,展平成模板块序列 ,模板块数量为 ,搜索区域图像 ,其中模板图像高为Hx、宽为Wx,搜索区域图像被分割为多个边长为P的图像块,展平成搜索块序列,搜索块数量为 。

3.根据权利要求2所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特征在于,所述模板token序列和搜索token序列的生成过程:利用输入参数为L的线性投影层,将模板块序列和搜索块序列映射到D维空间,并分别为每个块嵌入添加可学习的位置嵌入,得到模板token嵌入Z和搜索token嵌入X:i i

式中,zp为模板块序列中第i块,xp为搜索块序列中第i块,Pz为模板token的位置嵌入,Px为搜索token的位置嵌入,L表示参数为L的线性投影层。

4.根据权利要求3所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特0

征在于,所述混合序列通过将Z和X按通道拼接,得到混合序列M;

将混合序列输入预先建立的前景感知Transformer编码器中,经过归一化层得到模板的查询qz、键kz、值vz和搜索区域的查询qx、键kx、值vx。

5.根据权利要求4所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特征在于,所述利用背景筛除模块筛选丢弃背景token的过程:选择模板中心位置与搜索区域所有位置的相似度结果作为筛选背景的依据,表达式为:i

式中,w表示第i个头计算出的相似度,由于有h个注意力头,模板的中心位置能计算出h个相似度结果,背景筛除阈值 为h个相似度结果的平均值,表达式为:根据背景筛除阈值,将低于相似度的搜索token进行删除,而保留的搜索token需要记录原始位置,再与模板token重新拼接,得到混合token序列M2;

1

M2经过归一化和前馈网络后,与自身残差相加,得到Transformer块的输出M;

N

经过N个Transformer块后,得到编码器的最终输出M。

6.根据权利要求5所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特N征在于,将M的搜索token序列提取出来,根据token的初始位置嵌入恢复成初始顺序,对于缺失位置则采用0填充策略,得到完整的搜索token序列X’;

将X’重塑为二维特征图,输入三分支的预测头,分别得到分类得分、位置偏离、目标尺度,生成预测边界框;

将预测结果与预设预期值τ进行比较,若连续t帧均低于τ,则表明当前预测结果存在偏差,此时启动重跟踪策略,并将分类结果和边界框结果暂存重跟踪评估区;

将重跟踪缓存区中模板token序列和搜索token序列取出,输入通用Transformer编码器,通用Transformer编码器将前景增强多头自注意力模块替换为多头自注意力模块,其中,多头自注意力模块计算过程如下:式中,Attention(q,k,v)表示混合序列输入单个自注意力头的计算结果,Softmax为激活函数,是混合token序列的维度,headi表示第i个自注意力头的计算结果,MHSA表示多头自注意力结果;

将通用Transformer编码器的输出结果输入预测头,得到重跟踪的预测结果,并存入重跟踪评估区;

取重跟踪评估区中的分类分数最高的边界框作为最终预测结果;

若最终预测结果的分类得分高于更新阈值θ,其中,θ>预设预期值τ,则从当前帧图像裁剪出新的模板图像:以预测边界框中心为中心,按照大小为Hz×Wz的规格进行裁剪。

7.基于重跟踪策略的前景感知Transformer目标跟踪系统,采用了权利要求1至6中任一项所述的基于重跟踪策略的前景感知Transformer目标跟踪方法,其特征在于,包括:图像处理模块,用于接收最近帧模板图像和搜索区域图像,将最近帧模板图像和搜索区域图像输入预先构建的预处理层后分别生成模板token序列和搜索token序列,将模板token序列和搜索token序列缓存至重跟踪缓存区;

序列预测模块,用于将模板token序列和搜索token序列进行拼接,得到混合序列,将混合序列输入至预先建立的前景感知Transformer编码器内,得到输出序列,对输出序列中的搜索区域特征序列进行填充,将填充后的输出序列输入至预测头内,得到预测结果;

预测评估模块,用于将预测结果与预设预期值进行比较,若连续t帧的预测结果低于预设预期值,则将重跟踪缓存区内的模板token序列和搜索token序列经通用Transformer编码器再次预测,得到重跟踪评估区的预测结果,将预测结果与重跟踪评估区的预测结果进行综合评估,得到最佳跟踪结果。

8.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至6中任一项所述的基于重跟踪策略的前景感知Transformer目标跟踪方法。