1.一种无人机多模态跟踪方法,其特征在于,包括以下步骤:S1)对模板图像和搜索区域图像进行卷积操作,分别获取模板图像表示元和搜索区域图像表示元;使用BERT模型对文本进行分词和向量化,获取文本表示元;
S2)向各表示元添加一维可学习的位置编码;
S3)拼接各表示元,并将拼接后的表示元输入至共m层的Transformer编码器中进行特征提取和模态交互;
S4)过滤Transformer编码器提取的特征,截取搜索区域部分的特征输入至前馈神经网络进行分类和回归,基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。
2.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,所述步骤S1)中,对模版图像表示元、搜索区域图像表示元以及文本表示元的获取具体包括以下步骤:a)在对模板图像和搜索区域图像进行卷积中,使用P×P的卷积核以步长为P,编码维度为D的方式进行卷积操作,同步实现图像切块和线性映射,其中P为块的大小,D为线性映射维度;
b)在使用BERT模型对文本进行分词和向量化,获取文本表示元中,分别使用CLS和SEP指示文本序列的开始和边界。
3.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,所述步骤S3)中,使用混合专家模式进行特征提取和模态交互,具体包括以下步骤:c)拼接模板图像表示元与搜索区域图像表示元,以得到的二元组作为视觉部分输入,以文本表示元作为文本部分输入;
d)在前k层编码器设置视觉前馈网络V‑FFN和文本前馈网络L‑FFN,设层数为i层,归一化上层特征Ti并进行多头自注意力处理,截取视觉部分输入输入至视觉前馈神经网络得到视觉特征,截取文本部分输入输入至文本前馈神经网络得到文本特征;
e)在后(m‑k)层通过添加多头自注意力机制融合视觉前馈网络V‑FFN与文本前馈网络L‑FFN,得到视觉‑语言融合前馈神经网络VL‑FFN。
4.根据权利要求1所述的一种无人机多模态跟踪方法,其特征在于,所述步骤S3)中,使用单流编码器交互模式进行特征提取和模态交互,具体包括以下步骤:f)拼接模板图像表示元、搜索区域图像表示元以及文本表示元,以得到的三元组作为Transformer编码器输入;
g)采用多头自注意力机制进行各表示元融合,自注意力过程中的权重矩阵如下:;
其中,σ代表每类表示元对自身的注意建模,τ代表用于搜索区域跟踪的表示元建模,ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。
5.根据权利要求3或4任一项所述的一种无人机多模态跟踪方法,其特征在于,所述步骤S4)中的分类过程采用加权的focal损失作为分类损失;
所述步骤S4)中的回归过程采用l1损失和GIoU损失作为回归损失。