买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种无人机多模态跟踪方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种无人机多模态跟踪方法

￥25000

专利号： 2024103697410

申请人：临沂大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-04-09

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种无人机多模态跟踪方法，其特征在于，包括以下步骤：S1）对模板图像和搜索区域图像进行卷积操作，分别获取模板图像表示元和搜索区域图像表示元；使用BERT模型对文本进行分词和向量化，获取文本表示元；

S2）向各表示元添加一维可学习的位置编码；

S3）拼接各表示元，并将拼接后的表示元输入至共m层的Transformer编码器中进行特征提取和模态交互；

S4）过滤Transformer编码器提取的特征，截取搜索区域部分的特征输入至前馈神经网络进行分类和回归，基于所得到的分类响应图、偏移量以及尺度大小计算追踪目标的最终边界框。

2.根据权利要求1所述的一种无人机多模态跟踪方法，其特征在于，所述步骤S1）中，对模版图像表示元、搜索区域图像表示元以及文本表示元的获取具体包括以下步骤：a）在对模板图像和搜索区域图像进行卷积中，使用P×P的卷积核以步长为P，编码维度为D的方式进行卷积操作，同步实现图像切块和线性映射，其中P为块的大小，D为线性映射维度；

b）在使用BERT模型对文本进行分词和向量化，获取文本表示元中，分别使用CLS和SEP指示文本序列的开始和边界。

3.根据权利要求1所述的一种无人机多模态跟踪方法，其特征在于，所述步骤S3）中，使用混合专家模式进行特征提取和模态交互，具体包括以下步骤：c）拼接模板图像表示元与搜索区域图像表示元，以得到的二元组作为视觉部分输入，以文本表示元作为文本部分输入；

d）在前k层编码器设置视觉前馈网络V‑FFN和文本前馈网络L‑FFN，设层数为i层，归一化上层特征Ti并进行多头自注意力处理，截取视觉部分输入输入至视觉前馈神经网络得到视觉特征，截取文本部分输入输入至文本前馈神经网络得到文本特征；

e）在后（m‑k）层通过添加多头自注意力机制融合视觉前馈网络V‑FFN与文本前馈网络L‑FFN，得到视觉‑语言融合前馈神经网络VL‑FFN。

4.根据权利要求1所述的一种无人机多模态跟踪方法，其特征在于，所述步骤S3）中，使用单流编码器交互模式进行特征提取和模态交互，具体包括以下步骤：f）拼接模板图像表示元、搜索区域图像表示元以及文本表示元，以得到的三元组作为Transformer编码器输入；

g）采用多头自注意力机制进行各表示元融合，自注意力过程中的权重矩阵如下：；

其中，σ代表每类表示元对自身的注意建模，τ代表用于搜索区域跟踪的表示元建模，ϕ代表视觉边界框特征和文本标签表示元融合的注意力建模。

5.根据权利要求3或4任一项所述的一种无人机多模态跟踪方法，其特征在于，所述步骤S4）中的分类过程采用加权的focal损失作为分类损失；

所述步骤S4）中的回归过程采用l1损失和GIoU损失作为回归损失。