1.一种基于自适应关联的复杂场景下多目标追踪方法,其特征在于,包括以下步骤:步骤1,获取包含多目标运动的视频帧序列,对视频帧序列进行预处理;
步骤2,构建新的目标检测网络模型进一步处理连续帧的多目标图像;所述新的目标检测网络模型以YOLO11模型作为基准模型,包括骨干网络、颈部网络和头部网络;
所述骨干网络用于提取目标对象和场景上下文关系信息,利用空间和通道信息,获取表征能力增强的融合特征;用4个上下文信息提取模块CM替换原有YOLO11模型的骨干网络中的4个C3k2模块;
所述颈部网络引入混合空间通道注意力模块ML,综合不同尺度的特征,并基于混合注意力提取局部和全局的目标特征;
所述头部网络采用损失函数LLIoU,保证对角线比例的同时控制交并比,最终输出置信度、边界框位置;
步骤3,对新的目标检测网络模型进行整体多尺度特征训练与学习,使用损失函数LLIoU加快模型收敛;
步骤4,对步骤3训练后得到的目标检测网络模型进行性能评估与评价,得到最终的目标检测网络模型,利用目标检测网络模型预测多目标检测的标签,即检测框和置信度得分(x,y,w,h,score),其中x,y分别表示目标横坐标和纵坐标,w代表检测框宽度,h代表检测框高度,score代表检测框置信度分数;
步骤5,将检测框对象输入到追踪算法,通过构建两次以上自适应匹配,根据置信度动态调整匹配阈值,同时进行相机偏移补偿,预测目标轨迹。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:根据场景中的运动强度,对帧间隔进行设置,动态将原始视频进行稀疏采样,根据目标数量和场景动态设置采样比例,得到视频帧序列;对检测物体进行标注,将视频帧按照时间顺序排序,得到包含两张以上连续帧的多目标图像,进行直方图分块局部均衡化预处理,得到小目标图像数据集,并将小目标图像数据集划分为训练集、验证集和测试集。
3.根据权利要求2所述的方法,其特征在于,步骤1中,所述直方图分块局部均衡化预处理,具体包括如下步骤:步骤1‑1,将图像分成不重叠区域块tiles;
步骤1‑2,对每个区域块tiles计算直方图,根据直方图计算累计分布函数CDF;
步骤1‑3,设定灰度级的限制值频率,如果一个区域块tiles的直方图灰度级频率超过限制值频率,则削减频率并将削减后的频率重新分配给其他灰度级,保持直方图总和不变;
步骤1‑4,使用累计分布函数CDF进行局部均衡化,将每个像素的值映射到新的值;
步骤1‑5,在区域块tiles之间使用双线性插值进行平滑处理。
4.根据权利要求3所述的方法,其特征在于,步骤2中,通过如下步骤构建骨干网络:步骤2‑1,构建卷积层(64,3,2)用于输入图像,其中64表示卷积层输出的通道数filters,3表示卷积核的大小,即3x3的卷积核,用于处理输入图像的局部区域,2表示步幅stride,即卷积核在输入图像上滑动的步长为2;
然后构建连续4次卷积下采样,其中下采样的卷积核大小为3×3,步幅为2;
再构建上下文信息提取模块,用于降低分辨率和提取高层特征;
步骤2‑2,构建多尺度特征利用结构,从第二个上下文信息提取模块CM开始连接到颈部网络中,与颈部网络的upsample模块进行concat操作;
步骤2‑3,骨干网络连接到一个混合空间通道注意力模块ML,所述混合空间通道注意力模块ML与颈部网络相连。
5.根据权利要求4所述的方法,其特征在于,步骤2‑2中,所述上下文信息提取模块CM包含大核深度卷积depthwise convolution、逐点卷积pointwise convolution;
所述大核深度卷积depthwise convolution的组数与通道数相同;
所述大核深度卷积depthwise convolution首先连接ReLU激活函数和归一化操作,用于提取每个通道的全局信息;然后进行一个残差连接,随后,重复两次逐点卷积pointwise convolution,再连接激活函数ReLU和归一化操作;
所述两次逐点卷积pointwise convolution采用倒置瓶颈设计,即两次逐点卷积pointwise convolution之间的隐藏维度是输入维度的四倍,从而实现空间和通道信息的混合。
6.根据权利要求5所述的方法,其特征在于,步骤2‑3中,所述混合空间通道注意力模块ML包括局部平均池化模块LAP、全局平均池化模块GAP、反平均池化模块UNGAP和一维卷积模块Conv1d;
所述混合空间通道注意力模块ML对于输入的特征向量,首先将输入的特征向量变换为
1*C*ks*ks的向量,然后通过局部平均池化模块LAP提取局部空间信息,其中C表示通道维数,ks表示卷积核大小;利用两个分支分别将提取出的局部空间信息转化为一维向量,其中第一个分支利用全局平均池化模块GAP操作,包含全局信息,第二个分支直接进行reshape操作,包含局部空间信息;将第一个分支通过一维卷积模块Conv1d,将第二个分支通过reshape后,通过反平均池化模块UNGAP恢复两个分支的原始分辨率,再进行信息融合,最后残差连接原始输入的特征向量,从而输出混合全局、局部空间和通道注意力的特征向量;其中一维卷积模块Conv1d的卷积核大小k与通道维数C成正比;
卷积核大小k由如下公式确定:
其中b和γ均为超参数; 是比例函数。
7.根据权利要求6所述的方法,其特征在于,步骤3中,所述对新的目标检测网络模型进行整体多尺度特征训练与学习,包括:步骤3‑1,对新的目标检测网络模型,采用COCO图像识别数据集进行预训练,使用VisDrone2019‑Det无人机视角图像识别数据集进行整体训练;
步骤3‑2,设置训练轮次epochs、批量大小batch、输入图像大小、学习率和交并比IoU,使用随机梯度下降SGD作为优化器。
8.根据权利要求7所述的方法,其特征在于,步骤3中,所述损失函数LLIoU为:其中LIoU表示交并比IoU损失,Ldis表示欧几里得距离损失,Lasp表示长宽比损失,Bgt为真实边界框坐标,Bprd为预测值边界框坐标,其中 分别表示真实边界框
的左上角横坐标、纵坐标和右下角横坐标、纵坐标, 分别表示预测值边
界框的左上角横坐标、纵坐标和右下角横坐标、纵坐标;
其中 α表
示可调节的比例因子,ρ表示两点间的欧式距离。
9.根据权利要求8所述的方法,其特征在于,步骤4包括:对步骤3训练后得到的目标检测网络模型的平均检测精度、检测速度进行评估,通过设置训练轮次epochs、批量大小batch、输入图像大小、学习率和交并比IoU,将训练集中的样本图像输入目标检测网络模型中,训练得到目标检测网络模型的最佳的权重文件,通过损失函数来不断调节目标检测网络模型训练的方向,通过计算验证集的平均精确度mAP值来验证训练是否达到预期的效果;
通过对训练的权重文件进行筛选挑选出最佳的权重文件,并将最佳的权重文件加载至基于目标检测网络模型中,得到适合无人机场景下小目标检测的模型。
10.根据权利要求9所述的方法,其特征在于,步骤5中,所述追踪算法流程包括:步骤5‑1,从输入的视频帧的第1帧开始,将视频帧输入到步骤4训练完成的目标检测网络模型中,通过自适应阈值匹配方法,得到基于场景变化区分的置信度阈值cith;
所述自适应阈值匹配方法包括:给定与检测对象对应的置信度分数列表{ci},对{ci}进行升序排序,如果ci
寻找置信度梯度的最大值从而得到置信度阈值cith;
步骤5‑2,设置卡尔曼滤波器KF的状态向量为[x,y,w,r,vx,vy,vw,vr],其中r代表高h和宽w的比,r=h/w;
vx,vy分别表示在横坐标x方向上的速度分量和纵坐标y方向上的速度分量,vw表示宽度的变化速度分量,vr表示旋转的角速度分量;用检测框宽度代替原有卡尔曼滤波器状态向量的长宽比,不改变长宽比r;
步骤5‑3,使用全局运动估计GMC表示背景运动,提取图像关键点,利用稀疏光流进行平移的局部异常点抑制的特征跟踪;计算仿射变换矩阵,将预测的边界框从t‑1帧坐标变换到下一帧t的坐标;
所述计算仿射变换矩阵,包括:
输入数据即图像点对P={(xi,yi),(x′i,y′i)},初始化参数最大迭代次数N、内点阈值∈、最小样本数s、最佳仿射变换矩阵Mbest和最优内点集合Ibest;xi,yi分别表示第i个图像点对中的初始点的横坐标和纵坐标,x′i,y′i分别表示第i个图像点对中的更新点的横坐标和纵坐标;
对于每次迭代m=1,2,...,N,执行如下步骤:
步骤5‑3‑1,随机采样:从图像点对中随机选择s个对点,通过解线性方程组得到仿射变换矩阵Mt:其中a11和a22分别表示横坐标的缩放旋转量和纵坐标的缩放旋转量,a12和a21分别表示横坐标的剪切量和纵坐标的剪切量,trx表示横坐标的平移量,try表示纵坐标的平移量;xs,ys分别表示第s个图像点对中的初始点的横坐标和纵坐标,x′s,y′s分别表示第s个图像点对中的更新点的横坐标和纵坐标;
步骤5‑3‑2,对于所有图像点对P,计算变换后的点与目标点之间的误差error:如果图像点对的点与目标点之间的误差error小于阈值∈,则将图像点对标记为内点;
步骤5‑3‑3,如果当前仿射变换矩阵Mt的内点数量大于最优内点集合Ibest中的内点数量,则更新Mbest=Mt,Ibest=It,其中It为当前内点集合;
迭代完毕后,使用所有内点集合Ibest最小二乘法重新估计仿射变换矩阵,返回最佳仿射变换矩阵Mbest和内点集合Ibest;
步骤5‑4,按照置信度阈值cith划分,高于置信度阈值cith的检测框进行相机偏移补偿,然后利用卡尔曼滤波器进行第一次完全交并比CIoU和重识别ReID数据关联;低于置信度阈值cith的检测框准备进行第二次数据CIoU关联;
所述相机偏移补偿包括:按照步骤5‑2的状态向量进行预测并且进行平移旋转得到最终状态量:其中M′t|t‑1是包含仿射矩阵的尺度和旋转部分的矩阵,上标T表示转置,M′t|t‑1=diag
8×8 2×2
{M,M,M,M}∈R ,M∈R 是描述二维平面缩放和旋转的变化矩阵,T′t|t‑1是平移部分的矩8
阵,T′t|t‑1={Tr,0,0,0,0,0,0}∈R,R表示实数空间,Tr表示平移矩阵,Tr∈R; 是基于时刻t‑1的信息进行预测得到的时刻t的状态估计值; 是卡尔曼预测后的结果,P′t|t‑1表示在t时刻的预测协方差矩阵,Pt|t‑1表示t时刻的协方差矩阵。