利索能及
我要发布
收藏
专利号: 2022115588877
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,包括以下步骤:步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作;

步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征图和搜索图像的特征图;

步骤3:将模板图像特征和搜索图像特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图;

步骤4:将特征响应图输入到分类‑回归子网络,回归分支通过引入Focal‑EIoU损失替换IoU损失,从而引导跟踪器生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果;

所述多重注意力模块,具体步骤为:

E1、将优化前的特征F输入到通道注意力分支,给更具判别性的通道赋予更高的权重,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F1,公式为:其中,F1表示通过多注意力模块中的通道注意力分支优化后的特征,F表示优化前的特征, 表示像素相乘操作,σ表示Sigmoid激活函数,FSENet表示通过通道注意力机制之后得到的特征;

E2、将优化前的特征F输入到位置注意力分支,再利用残差学习与优化前的特征进行像素相乘操作,从而得到特征F2,公式为:其中,F2表示通过多注意力模块中的位置注意力分支优化后的特征,F表示优化前的特征, 表示像素相乘操作,σ表示Sigmoid激活函数,FCA表示通过位置注意力机制之后得到的特征;

E3、将通过步骤E1得到的特征F1和通过步骤E2得到的特征F2进行特征融合,首先对两个特征进行像素相乘操作,再通过两个3×3的卷积操作进一步增强特征表示,得到优化后的特征Foutput,公式为:其中,Foutput表示优化后的特征,F3×3表示3×3卷积操作, 表示像素相乘操作。

2.根据权利要求1所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤1:选取视频的第一帧图像作为模板图像,选取视频的后序其他帧图像作为搜索图像,再分别对模板图像和搜索图像进行预处理操作,具体包含以下步骤:A1、模板图像预处理:选取视频的第一帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至127×127像素大小;

A2、搜索图像预处理:选取视频的后序其他帧图像,目标区域使用矩形框标定,矩形框的中心点代表目标中心点位置,在目标矩形框四边分别扩充p个像素,若矩形框超过图像边界,超过的部分使用图像像素均值填充,最后将裁剪的目标图像尺寸缩放至287×287像素大小。

3.根据权利要求2所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤2:将预处理后的模板图像和搜索图像分别输入到孪生网络的模板分支和搜索分支,通过GoogLeNet特征提取骨干网络进行特征提取,得到模板图像的特征和搜索图像的特征,具体包括以下步骤:B1、根据步骤A1得到127×127大小的模板图像z,根据步骤A2得到287×287大小的搜索图像x;

B2、将模板图像z输入到孪生网络的模板分支,通过GoogLeNet特征提取骨干网络提取得到模板图像特征B3、将搜索图像x输入到孪生网络的搜索分支,通过GoogLeNet特征提取骨干网络提取得到搜索图像特征

4.根据权利要求3所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤3:将模板图像的特征和搜索图像的特征分别输入到由并行的通道注意力分支和位置注意力分支组成的多重注意力模块中,其中通道注意力分支给更具有判别性的特征通道赋予更高的权重,位置注意力分支充分利用目标的位置信息,从而进一步细化特征;通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图,具体包括以下步骤:C1、根据步骤B2得到的模板图像特征 将其输入到多重注意力模块,包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的模板图像特征C2、根据步骤B3得到的搜索图像特征 将其输入到多重注意力模块,包含通道注意力分支和位置注意力分支,得到两种不同的注意力特征,通过逐像素相乘操作对两种注意力特征进行融合,之后再通过两个3×3的卷积操作进一步增强特征表示,最终得到细化后的搜索图像特征C3、将细化后的模板图像特征 和搜索图像特征 通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,得到一个特征响应图Ffin。

5.根据权利要求4所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤C3、将细化后的模板图像特征 和搜索图像特征 通过图注意力机制将目标信息从模板图像特征传播到搜索图像特征,具体步骤为:D1、将模板图像特征 中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vz;

D2、将搜索图像特征 中的每一个1×1×C的网格视为一个结点,其中C为特征通道数,得到一个包含所有结点的结点集Vx;

D3、构建完全二分图G=(V,E),其中,V=Vz∪Vx, G的

两个子图分别为 和

D4、因为搜索图像中的位置与模板图像的局部位置越相似,越有可能是前景,应该向那里传递更多的目标信息;先分别对结点进行线性变化,计算两者的内积来计算相关得分,相关得分即为两个结点的相似程度,最后生成一个响应图,公式为:其中,ei,j表示结点i∈Vx和结点j∈Vz之间的相关得分,Wx和Wz为线性变换矩阵, 和分别为结点\和j的特征向量。

6.根据权利要求1所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述步骤4将特征响应图输入到分类‑回归子网络,回归分支通过引入Focal‑EIoU损失替换IoU损失,从而引导跟踪器生成更加精确的跟踪框,所得的跟踪框即为最后的跟踪结果,具体包含以下步骤:F1、根据步骤C3,将获得的特征响应图进行卷积,并分别输入到分类分支、中心度分支和回归分支;

F2、分类分支采用常规的交叉熵损失进行分类任务,得到分类损失Lcls;

F3、中心度分支与分类分支并行,用于去除异常数据,得到中心度损失Lcen;

F4、回归分支采用Focal‑EIoU损失进行回归任务,得到回归损失Lreg;

F5、根据步骤F2得到分类损失Lcls,根据步骤F3得到中心度损失Lcen,根据步骤F4得到回归损失Lreg,计算出最终总的损失函数的公式为:L=Lcls+λ1Lcen+λ2Lreg        (5)

其中,L表示总的损失函数,λ1表示中心度损失函数中的超参数,λ2表示回归损失函数中的超参数。

7.根据权利要求6所述的一种基于多重注意力的孪生网络目标跟踪方法,其特征在于,所述Focal‑EIoU损失以及回归分支的损失函数为:gt

其中,LEIOU表示EIoU损失,IOU表示两个锚框的交并比,b表示锚框的中心点,b 表示真gt gt值框的中心点,w表示锚框的宽度,w 表示真值框的宽度,h表示锚框的高度,h 表示真值框c c的高度,w表示最小的边界框的宽度,h表示最小的边界框的高度;

γ

Lreg=IoU LEIoU        (7)

其中,Lreg表示通过Focal‑EIoU损失计算出的回归损失,γ是一个超参数。