1.一种非对称的分层特征融合的RGBT目标跟踪方法,其特征在于,所述方法基于非对称分层特征融合的RGBT目标跟踪网络实现,所述非对称分层特征融合的RGBT目标跟踪网络的主干网络采用VGG‑M的前三层conv1‑conv3,并将它扩展为双流网络,以可见光分支为主分支,热红外分支为辅助分支,后续连接三个全连接层;所述方法包括:步骤S1,将当前视频帧对应的可见光图像和热红外图像输入所述基于非对称分层特征融合的RGBT目标跟踪网络;
步骤S2,分别根据可见光图像和热红外图像获取第i层可见光模态的特征 和热红外模态的特征 以及第i层辅助的可见光模态特征 和辅助的热红外模态特征步骤S3,根据辅助的可见光模态特征 和辅助的热红外模态特征 获得第i层聚合特征步骤S4,针对每一层,将可见光模态的特征 和聚合特征 通过交叉注意力机制进行交互融合,获得增强融合特征 作为下一层的输入;
步骤S5,针对第三层,将聚合特征 与可见光模态的特征 和热红外模态的特征进行分别交互融合,分别获得增强融合特征;
步骤S6,将第三层获得的两个增强融合特征输入到三个全连接层中,对当前视频帧进行前景和背景的判别,定位目标位置,实现目标跟踪;
所述双流网络中,针对每一层,包括主干结构、非对称分层融合结构以及特征增强融合模块FEF;所述主干结构用于获取可见光模态的特征 和热红外模态的特征 所述非对称分层融合结构用于获得聚合特征 所述特征增强融合模块FEF将传统Transformer结构中的encoder和decoder进行拆分,形成两个encoder和一个decoder结构,将主干网络获取的可见光模态的特征 和非对称分层融合结构获取的聚合特征 分别作为两个encoder的输入进行增强,再使用decoder结构将经过encoder增强的特征通过交叉注意力机制进行交互融合,获得第i+1层的增强融合特征针对第三层,另外设置一个特征增强融合模块FEF,将热红外模态的特征 进行增强后与聚合特征 进行交互融合,获得增强融合特征将第三层获得的增强融合特征 与 输入到三个全连接层中,对当前视频帧进行前景和背景的判别,定位目标位置;
所述非对称分层融合结构包括基于Ghost的模态特征提取模块MFE和基于SKNet的特征自适应聚合模块FAG;所述基于Ghost的模态特征提取模块MFE用于获得第i层辅助的可见光模态特征 和辅助的热红外模态特征 所述基于SKNet的特征自适应聚合模块用于根据辅助的可见光模态特征 和辅助的热红外模态特征 获得第i层聚合特征
2.根据权利要求1所述的方法,其特征在于,所述步骤S2中获取第i层辅助的可见光模态特征 和辅助的热红外模态特征 时,根据下式计算获得:其中 是每一层输入到模态特征提取模块MFE的特征图, 是先
经过一个普通的卷积获得的新的特征图, 是通过线性操作得到的另外一个特征图, 是将得到的两个特征图进行级联得到最终的特征图,即为 和ε表示级联操作,l表示层数, 表示卷积操作 的卷积核大小分别为5*5,3*
3和1*1; 表示分组卷积操作,分组数为C2/4,卷积核大小为3*3。
3.根据权利要求2所述的方法,其特征在于,所述步骤S3中获得第i层聚合特征 时,按照下式计算得到:fc=f2(γ(f1))
其中,wrgb,wt表示自适应聚合模块FAG的权重,α表示全局平均池化操作,f1和f2表示1*1卷积操作,γ表示ReLu激活函数,φ表示softmax函数。
4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括:
将可见光主干网络每层获得的特征 和非对称分层融合结构获得聚合特征 通过线性变换获得q、k、v向量分别作为两个Encoder的输入;
T
通过自注意力机制进行增强,注意力权重矩阵Atten(q,k,v)=soft max(qk/τ)v,其中τ=30,然后使用残差将向量v加到原始向量上;
在Decoder部分采用的是可见光模态经过Encoder获得的特征作为v和k聚合特征经过Encoder获得的特征作为q;通过交叉注意力机制,然后将向量v加到原始向量上,得到增强融合的特征
5.根据权利要求1所述的方法,其特征在于,所述主干网络的前三层conv1‑conv3的卷积核大小分别为7*7,5*5和3*3。
6.根据权利要求1所述的方法,其特征在于,所述三个全连接层的输出维度分别为512,
512,2。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括,采用公开数据集对所述非对称分层特征融合的RGBT目标跟踪网络进行训练,训练过程中通过损失函数和随机梯度下降算法对网络参数进行迭代训练更新。
8.根据权利要求7所述的方法,其特征在于,所述公开数据集包括GTOT、RGBT234和LasHeR三种RGBT跟踪数据集。