买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于自适应关联的复杂场景下多目标追踪方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于自适应关联的复杂场景下多目标追踪方法

￥31200

专利号： 2025103703632

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于自适应关联的复杂场景下多目标追踪方法，其特征在于，包括以下步骤：步骤1，获取包含多目标运动的视频帧序列，对视频帧序列进行预处理；

步骤2，构建新的目标检测网络模型进一步处理连续帧的多目标图像；所述新的目标检测网络模型以YOLO11模型作为基准模型，包括骨干网络、颈部网络和头部网络；

所述骨干网络用于提取目标对象和场景上下文关系信息，利用空间和通道信息，获取表征能力增强的融合特征；用4个上下文信息提取模块CM替换原有YOLO11模型的骨干网络中的4个C3k2模块；

所述颈部网络引入混合空间通道注意力模块ML，综合不同尺度的特征，并基于混合注意力提取局部和全局的目标特征；

所述头部网络采用损失函数LLIoU，保证对角线比例的同时控制交并比，最终输出置信度、边界框位置；

步骤3，对新的目标检测网络模型进行整体多尺度特征训练与学习，使用损失函数LLIoU加快模型收敛；

步骤4，对步骤3训练后得到的目标检测网络模型进行性能评估与评价，得到最终的目标检测网络模型，利用目标检测网络模型预测多目标检测的标签，即检测框和置信度得分(x,y,w,h,score)，其中x，y分别表示目标横坐标和纵坐标，w代表检测框宽度，h代表检测框高度，score代表检测框置信度分数；

步骤5，将检测框对象输入到追踪算法，通过构建两次以上自适应匹配，根据置信度动态调整匹配阈值，同时进行相机偏移补偿，预测目标轨迹。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：根据场景中的运动强度，对帧间隔进行设置，动态将原始视频进行稀疏采样，根据目标数量和场景动态设置采样比例，得到视频帧序列；对检测物体进行标注，将视频帧按照时间顺序排序，得到包含两张以上连续帧的多目标图像，进行直方图分块局部均衡化预处理，得到小目标图像数据集，并将小目标图像数据集划分为训练集、验证集和测试集。

3.根据权利要求2所述的方法，其特征在于，步骤1中，所述直方图分块局部均衡化预处理，具体包括如下步骤：步骤1‑1，将图像分成不重叠区域块tiles；

步骤1‑2，对每个区域块tiles计算直方图，根据直方图计算累计分布函数CDF；

步骤1‑3，设定灰度级的限制值频率，如果一个区域块tiles的直方图灰度级频率超过限制值频率，则削减频率并将削减后的频率重新分配给其他灰度级，保持直方图总和不变；

步骤1‑4，使用累计分布函数CDF进行局部均衡化，将每个像素的值映射到新的值；

步骤1‑5，在区域块tiles之间使用双线性插值进行平滑处理。

4.根据权利要求3所述的方法，其特征在于，步骤2中，通过如下步骤构建骨干网络：步骤2‑1，构建卷积层(64，3，2)用于输入图像，其中64表示卷积层输出的通道数filters，3表示卷积核的大小，即3x3的卷积核，用于处理输入图像的局部区域，2表示步幅stride，即卷积核在输入图像上滑动的步长为2；

然后构建连续4次卷积下采样，其中下采样的卷积核大小为3×3，步幅为2；

再构建上下文信息提取模块，用于降低分辨率和提取高层特征；

步骤2‑2，构建多尺度特征利用结构，从第二个上下文信息提取模块CM开始连接到颈部网络中，与颈部网络的upsample模块进行concat操作；

步骤2‑3，骨干网络连接到一个混合空间通道注意力模块ML，所述混合空间通道注意力模块ML与颈部网络相连。

5.根据权利要求4所述的方法，其特征在于，步骤2‑2中，所述上下文信息提取模块CM包含大核深度卷积depthwise convolution、逐点卷积pointwise convolution；

所述大核深度卷积depthwise convolution的组数与通道数相同；

所述大核深度卷积depthwise convolution首先连接ReLU激活函数和归一化操作，用于提取每个通道的全局信息；然后进行一个残差连接，随后，重复两次逐点卷积pointwise convolution，再连接激活函数ReLU和归一化操作；

所述两次逐点卷积pointwise convolution采用倒置瓶颈设计，即两次逐点卷积pointwise convolution之间的隐藏维度是输入维度的四倍，从而实现空间和通道信息的混合。

6.根据权利要求5所述的方法，其特征在于，步骤2‑3中，所述混合空间通道注意力模块ML包括局部平均池化模块LAP、全局平均池化模块GAP、反平均池化模块UNGAP和一维卷积模块Conv1d；

所述混合空间通道注意力模块ML对于输入的特征向量，首先将输入的特征向量变换为

1*C*ks*ks的向量，然后通过局部平均池化模块LAP提取局部空间信息，其中C表示通道维数，ks表示卷积核大小；利用两个分支分别将提取出的局部空间信息转化为一维向量，其中第一个分支利用全局平均池化模块GAP操作，包含全局信息，第二个分支直接进行reshape操作，包含局部空间信息；将第一个分支通过一维卷积模块Conv1d，将第二个分支通过reshape后，通过反平均池化模块UNGAP恢复两个分支的原始分辨率，再进行信息融合，最后残差连接原始输入的特征向量，从而输出混合全局、局部空间和通道注意力的特征向量；其中一维卷积模块Conv1d的卷积核大小k与通道维数C成正比；

卷积核大小k由如下公式确定：

其中b和γ均为超参数；是比例函数。

7.根据权利要求6所述的方法，其特征在于，步骤3中，所述对新的目标检测网络模型进行整体多尺度特征训练与学习，包括：步骤3‑1，对新的目标检测网络模型，采用COCO图像识别数据集进行预训练，使用VisDrone2019‑Det无人机视角图像识别数据集进行整体训练；

步骤3‑2，设置训练轮次epochs、批量大小batch、输入图像大小、学习率和交并比IoU，使用随机梯度下降SGD作为优化器。

8.根据权利要求7所述的方法，其特征在于，步骤3中，所述损失函数LLIoU为：其中LIoU表示交并比IoU损失，Ldis表示欧几里得距离损失，Lasp表示长宽比损失，Bgt为真实边界框坐标，Bprd为预测值边界框坐标，其中分别表示真实边界框

的左上角横坐标、纵坐标和右下角横坐标、纵坐标，分别表示预测值边

界框的左上角横坐标、纵坐标和右下角横坐标、纵坐标；

其中 α表

示可调节的比例因子，ρ表示两点间的欧式距离。

9.根据权利要求8所述的方法，其特征在于，步骤4包括：对步骤3训练后得到的目标检测网络模型的平均检测精度、检测速度进行评估，通过设置训练轮次epochs、批量大小batch、输入图像大小、学习率和交并比IoU，将训练集中的样本图像输入目标检测网络模型中，训练得到目标检测网络模型的最佳的权重文件，通过损失函数来不断调节目标检测网络模型训练的方向，通过计算验证集的平均精确度mAP值来验证训练是否达到预期的效果；

通过对训练的权重文件进行筛选挑选出最佳的权重文件，并将最佳的权重文件加载至基于目标检测网络模型中，得到适合无人机场景下小目标检测的模型。

10.根据权利要求9所述的方法，其特征在于，步骤5中，所述追踪算法流程包括：步骤5‑1，从输入的视频帧的第1帧开始，将视频帧输入到步骤4训练完成的目标检测网络模型中，通过自适应阈值匹配方法，得到基于场景变化区分的置信度阈值cith；

所述自适应阈值匹配方法包括：给定与检测对象对应的置信度分数列表{ci}，对{ci}进行升序排序，如果ci

寻找置信度梯度的最大值从而得到置信度阈值cith；

步骤5‑2，设置卡尔曼滤波器KF的状态向量为[x,y,w,r,vx,vy,vw,vr]，其中r代表高h和宽w的比，r＝h/w；

vx,vy分别表示在横坐标x方向上的速度分量和纵坐标y方向上的速度分量，vw表示宽度的变化速度分量，vr表示旋转的角速度分量；用检测框宽度代替原有卡尔曼滤波器状态向量的长宽比，不改变长宽比r；

步骤5‑3，使用全局运动估计GMC表示背景运动，提取图像关键点，利用稀疏光流进行平移的局部异常点抑制的特征跟踪；计算仿射变换矩阵，将预测的边界框从t‑1帧坐标变换到下一帧t的坐标；

所述计算仿射变换矩阵，包括：

输入数据即图像点对P＝{(xi,yi),(x′i,y′i)}，初始化参数最大迭代次数N、内点阈值∈、最小样本数s、最佳仿射变换矩阵Mbest和最优内点集合Ibest；xi,yi分别表示第i个图像点对中的初始点的横坐标和纵坐标，x′i,y′i分别表示第i个图像点对中的更新点的横坐标和纵坐标；

对于每次迭代m＝1,2,...,N，执行如下步骤：

步骤5‑3‑1，随机采样：从图像点对中随机选择s个对点，通过解线性方程组得到仿射变换矩阵Mt：其中a11和a22分别表示横坐标的缩放旋转量和纵坐标的缩放旋转量，a12和a21分别表示横坐标的剪切量和纵坐标的剪切量，trx表示横坐标的平移量，try表示纵坐标的平移量；xs，ys分别表示第s个图像点对中的初始点的横坐标和纵坐标，x′s，y′s分别表示第s个图像点对中的更新点的横坐标和纵坐标；

步骤5‑3‑2，对于所有图像点对P，计算变换后的点与目标点之间的误差error：如果图像点对的点与目标点之间的误差error小于阈值∈，则将图像点对标记为内点；

步骤5‑3‑3，如果当前仿射变换矩阵Mt的内点数量大于最优内点集合Ibest中的内点数量，则更新Mbest＝Mt，Ibest＝It，其中It为当前内点集合；

迭代完毕后，使用所有内点集合Ibest最小二乘法重新估计仿射变换矩阵，返回最佳仿射变换矩阵Mbest和内点集合Ibest；

步骤5‑4，按照置信度阈值cith划分，高于置信度阈值cith的检测框进行相机偏移补偿，然后利用卡尔曼滤波器进行第一次完全交并比CIoU和重识别ReID数据关联；低于置信度阈值cith的检测框准备进行第二次数据CIoU关联；

所述相机偏移补偿包括：按照步骤5‑2的状态向量进行预测并且进行平移旋转得到最终状态量：其中M′t|t‑1是包含仿射矩阵的尺度和旋转部分的矩阵，上标T表示转置，M′t|t‑1＝diag

8×8 2×2

{M,M,M,M}∈R ，M∈R 是描述二维平面缩放和旋转的变化矩阵，T′t|t‑1是平移部分的矩8

阵，T′t|t‑1＝{Tr,0,0,0,0,0,0}∈R，R表示实数空间，Tr表示平移矩阵，Tr∈R；是基于时刻t‑1的信息进行预测得到的时刻t的状态估计值；是卡尔曼预测后的结果，P′t|t‑1表示在t时刻的预测协方差矩阵，Pt|t‑1表示t时刻的协方差矩阵。