利索能及
我要发布
收藏
专利号: 2022104511176
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于,包括如下步骤:S1、特征提取:在初始帧中给定目标初始位置Loc1,根据目标初始位置Loc1裁剪出目标区域Z1,并通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1;

S2、可学习特征匹配:将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;

S3、注意力提取:包括空间注意力提取和通道注意力提取,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt;

S4、位置预测:根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标‑背景的前后景分类概率以及回归计算目标所处位置的边框;

S5、采用时空约束分支并更新模板直至跟踪结束:时空约束包括时序约束分支与空间约束分支;具体是采用时序约束分支捕捉并融合随时序变化的目标外观高维特征表示,采用空间约束分支根据前序跟踪结果约束空间层面的搜索尺度,更新模板直至跟踪结束。

2.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S1特征提取的具体步骤包括如下:S11、尺寸调整:调整搜索图像X1与跟踪目标Z1的尺寸大小,使其能够被输入进网络,调整后的X1与Z1尺寸分别为255×255×3与127×127×3;

S12、多尺度特征图尺寸平衡:通过控制骨干网络MobileNetv2中的卷积参数,将不同尺度的规范为同一尺寸的中间特征图输出,输出搜索图像X1与跟踪目标Z1在骨干网络卷积层第3、5、7层的中间特征图集分别为MX={MX1,MX2,MX3}和MZ={MZ1,MZ2,MZ3},每个特征图集中的中间特征图具有相同的尺寸;

S13、多尺度特征图融合:将步骤S12中输出的特征图集MX与MZ分别进行融合,分别得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1。

3.根据权利要求2所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S13多尺度特征图融合的具体步骤包括:S131、对于特征图集MX,首先将其在通道维度上进行拼接,拼接后的特征图记作

FX_concat,尺寸为31×31×768,再将FX_concat输入进反卷积层进行降维,然后通过批量归一化与Relu层,得到降维后的搜索区域融合特征图FX1,尺寸为31×31×256;

S132、对于特征图集MZ,首先将其在通道维度上进行拼接,拼接后的特征图记作

FZ_concat,尺寸为15×15×768,再将FZ_concat输入进反卷积层进行降维,然后通过批量归一化与激活层,得到降维后的搜索区域融合特征图FZ_fusion,该特征图尺寸为15×15×256;

随后将FZ_fusion依次输入进特征编码器、ROI_Align层与空间调整层,最后得到表征跟踪目标Z1的融合特征向量FZ1,向量尺寸为1×1×256。

4.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S2中两个独立的卷积层和降维层都具有256个1x1大小的卷积核;所述中间相似图SimilarMapconcat的尺寸为31×31×512,所述最终相似图SimilarMap的尺寸为31×31×256。

5.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S3注意力提取的具体步骤包括:S31、空间注意力提取:采用非局部操作算子Non‑Local Layer,Non‑Local Layer通过非局部均值滤波操作用以捕捉空间、序列以及通道层面的长距离依赖,并保持输入与输出尺度的一致,输出空间注意力掩码;

S32、通道注意力提取:采用SEModule网络,通过Squeeze和Excitation操作获得表示各通道的全局空间特征的表示向量,并通过训练数据的学习对各通道的依赖程度进行调整,输出通道注意力权重向量;

S33、将输出的空间注意力掩码与通道注意力权重向量与步骤S2得到的相似图

SimilarMap进行融合,得到带有空间、通道注意力的相似图SMatt。

6.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S4位置预测中,分类分支与回归分支网络分别采用不同的损失函数,分类分支采用交叉熵损失函数CrossEntropyLoss,回归分支采用Linear‑IoU损失函数LinearIoULoss,两个损失函数的输入均为两个四元组(l,r,t,b)与 分别代表真实位置边框与预测位置边框,通过计算二者的交集与并集来评估网络的总损失TotalLoss。

7.根据权利要求6所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述网络的总损失TotalLoss具体计算如下:gt_area=(l+r)*(t+b)

area_union=pred_area+gt_area‑area_interTotalLoss=CrossEntropyLoss+LinearIoULoss。

8.根据权利要求1所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述步骤S5采用时空约束分支并更新模板直至跟踪结束具体包括:将当前帧的跟踪原始画面以及前序帧跟踪结果作为空间约束分支的输入,前序帧跟踪结果为一四元向量[x,y,w,h],分别代表目标位置边框左上角点的坐标以及边框的宽高,跟踪模型通过边框宽高以及人工设定的搜索区域缩放因子c计算当前帧搜索区域的裁剪尺寸sizex;

设当前帧的跟踪结果为 在本网络配置文件中将阈值区间[a,b]与更新间隔ξ作为超参数,将当前帧的跟踪结果 作为时序约束分支的输入,若 的特征融合向量 与初始目标区域的特征融合向量 余弦相似度处于阈值区间[a,b]中,则将 的多尺度融合特征 更新至跟踪模板中。

9.根据权利要求8所述的基于时空约束与可学习特征匹配的快速目标跟踪方法,其特征在于:所述跟踪模板更新的表达式如下:其中,当i=1时,templatei为在初始帧中人为指定的目标位置。

10.一种根据权利要求1‑9中任一项所述基于时空约束与可学习特征匹配的快速目标跟踪方法的跟踪系统,其特征在于:所述跟踪系统包括如下模块:特征提取模块:用于通过共享权重的骨干网络MobileNetv2分别提取搜索图像X1与跟踪目标Z1的深度特征,得到搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1;

可学习特征匹配模块:用于将搜索区域融合特征图FX1和跟踪目标Z1的融合特征向量FZ1分别输入至两个独立的卷积层进行特征映射,并在通道维度拼接,得到的中间相似图SimilarMapconcat,将中间相似图输入至降维层,输出得到最终的相似图SimilarMap;

注意力提取模块:包括空间注意力提取模块和通道注意力提取模块,具体为使用一张掩码Mask完成,通过学习训练,让深度神经网络学习到需要关注的区域与通道,得到带有空间、通道注意力的相似图SMatt;

位置预测模块:用于根据带有空间、通道注意力的相似图SMatt,采用分类分支与回归分支网络分别计算目标‑背景的前后景分类概率以及回归计算目标所处位置的边框;

时空约束分支模块和模板更新模块:时空约束分支模块包括时序约束分支模块与空间约束分支模块;

时序约束分支模块用于捕捉并融合随时序变化的目标外观高维特征表示;

空间约束分支模块用于根据前序跟踪结果约束空间层面的搜索尺度;

模板更新模块用于更新跟踪模板。