1.一种基于跨模态感知的自学习多目标跟踪方法,其特征在于,包括如下步骤:S1:采集监控场景的可见光和红外视频流,进行时序对齐处理后分别输入基于Transformer的跨模态融合网络生成两种模态的信息,利用交叉注意力机制深度融合所述两种模态的信息,生成融合特征图;
S2:采用基于关键点的无锚框检测器CenterNet定位所述融合特征图中物体目标,并在所述目标的中心点提取身份重识别Re‑ID特征;具体包括:S201:无锚框检测器CenterNet包含一个中心点热力图预测头,作用于所述S1输出的融合特征图,生成一张与特征图尺寸相同的中心点热力图 , 代表模型预测出的中心点热力图,规定每一个像素点取的数值范围, 表示热力图的像素点坐标上的单个数值;
S202:在通过热力图定位到物体中心点后,无锚框检测器通过另外两个并行的预测头对该物体中心点的属性进行回归,以形成中心点对应物体的完整的检测框;
S203:采用一个独立的身份重识别Re‑ID特征提取头,在所述S201确定的每个目标中心点位置上,从所述S1输出的融合特征图中提取对应特征,并将其映射为一个高区分度的身份嵌入向量,该身份重识别Re‑ID头经过训练,确保同一目标的身份向量在特征空间中保持聚合,而不同目标的身份向量则相互分离;
S3:采用并行的关联与预测流程,利用状态自适应预测器SAP模块对所述目标的现有轨迹进行运动状态预测,再利用置信序列关联器CSA模块通过在线学习马氏距离的统计分布,动态生成决策置信区间,进行决策判断,生成运动轨迹;
S4:引入全局轨迹修正器GCM模块,对所述运动轨迹的中断的轨迹碎片进行拼接处理,实现轨迹缝合,并进行身份ID修正。
2.根据权利要求1所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S1,具体包括:
S101:采用一个集成了可见光RGB与红外热成像IR传感器的双目摄像头模组,对监控场景进行数据采集;
S102:将所述S101中采集的每帧可见光图像 和红外图像 分别转化为符合Transformer架构处理的序列化数据即特征令牌序列 和 ;
S103:将所述S102生成的两路特征令牌序列 和 并行送入跨模态融合Transformer网络,使一种模态的特征作为查询Q,从作为键K和值V的另一种模态特征中提取并进行加权融合,最终输出一个统一的融合特征图。
3.根据权利要求2所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S103:将所述S102生成的两路特征令牌序列并行送入跨模态融合Transformer网络,使一种模态的特征作为查询Q,从作为键K和值V的另一种模态特征中提取并进行加权融合,最终输出一个统一的融合特征图;具体包括:将所述S102生成的两路特征令牌序列 和 并行送入由多个编码器层Encoder Layer堆叠而成的跨模态融合Transformer网络,利用多头交叉注意力机制,对每个编码器层中两种模态特征令牌序列中的特征进行充分的信息交互和增强;
对于更新可见光特征流,其查询向量 来自可见光令牌序列 ,而其键 和值来自红外令牌序列 ,红外特征流则相反,其公式为:其中, 分别代表查询、键、值
矩阵; 是键矩阵的转置; 是键向量的维度,用于缩放,防止点积结果过大导致梯度消失;
在多头注意力机制中,该过程会并行执行多次,每个头学习一种不同的信息关联模式,所有头的输出结果经过拼接和线性整合后,通过前馈网络和残差连接,最终生成包含两种模态深度交互信息的高维融合特征图。
4.根据权利要求1所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S202,具体包括:
尺寸回归头负责预测所述物体中心点对应目标的物理宽度和高度 ,偏移量回归头负责预测一个亚像素级别的中心点偏移量 ,补偿因特征图下采样导致的离散化误差;
这两个回归任务采用L1损失函数进行监督训练,有效计算预测与真实值之间的差距,指导模型进行参数更新,其公式为:其中 是模型对第k个目标的属性的预测值, 是其对应的
真实值。
5.根据权利要求1所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S3,具体包括:
S301:基于状态自适应预测器SAP进行运动状态预测;
S302:对预测的所述运动状态衡量位置偏差,得到一个归一化的统计学距离,计算得出两者间的马氏距离 ,作为关联成本,从而衡量所述S301中预测的轨迹与所述S2中检测框的匹配程度,即S301中预测轨迹与所述S2中检测框的距离;
S303:采用一个置信序列关联器CSA模块进行自学习数据关联,所述CSA模块通过在线学习其统计分布来动态决策;
S304:对于所述S303的输出结果,对于高置信度匹配的对,使用增益卡尔曼滤波器GKF的更新步骤,结合新的检测信息来更新轨迹的状态,重置其未匹配时长;对于高置信度不匹配和不确定的检测框及轨迹,进入补充关联阶段,利用所述S203提取的身份重识别Re‑ID特征进行匹配,通过计算未匹配轨迹与未匹配检测框之间的余弦相似度,解决因运动模糊或运动模式突变导致的匹配失败;
若两轮匹配均失败后,系统确认该检测为一个新目标并为其分配新ID。
6.根据权利要求5所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S301:基于状态自适应预测器SAP进行运动状态预测;具体包括:系统采用增益卡尔曼滤波器GKF预测其在当前帧的状态,定义了一个包含目标位置、尺寸及对应速度的状态向量 ,其中, 为中心点坐标,为面积,为宽高比,带点的项为其对应的一阶导数,核心创新在于它并非采用固定的观测噪声,而是根据该轨迹上一次匹配的检测置信度ck自适应地调整观测噪声协方差矩阵:其中, 是基础噪声矩阵,是区分高低质量检测
的预设阈值,当检测质量不佳时置信度 低,系统增大观测噪声,降低对该次不可靠观测的信任度,更多地依赖于自身的运动预测,以此保证轨迹预测的稳定性和鲁棒性。
7.根据权利要求5所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S303:由置信序列关联器CSA通过在线学习其统计分布来动态决策;具体包括:将所有成功匹配的马氏距离分数当作一个数据流,运用置信序列估计该数据流的p分位数,将其作为正常匹配与异常匹配的边界;
该模块计算不确定性半径 ,其公式为:
其中,是已观测的样本
数, 是允许的犯错概率,e为无理数,基于此半径,生成一个动态的置信区间,即决策区间:其中, 是已观测分数的经验分位数,根据
新计算的马氏距离 与此动态区间的关系,系统会做出三类判断:高置信度匹配: ;
高置信度不匹配: ;
不确定保守决策: 。
8.根据权利要求1所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:所述S4:全局轨迹修正器GCM模块,对所述运动轨迹的中断的轨迹碎片进行拼接处理,实现轨迹缝合,并进行身份ID修正,具体包括:S401:根据所述S3获得的运动轨迹,先将实时关联与预测阶段生成的所有轨迹段进行标准化处理,每一个轨迹段 被表示为一个固定长度为N的时序序列,对于长度不足N的轨迹段,采用零填充的方式将其扩展至标准长度,形成格式统一、供神经网络处理输入的标准化轨迹序列;
S402:采用一个并行的双分支卷积架构,从所述S401的标准化轨迹序列中提取能够表征其身份连续性的时序与空间特征;
S403:利用一个MLP分类器,根据提取出的时空特征,计算任意两个轨迹段同属一个目标的概率,找出全局最优的匹配方案;
S404:根据最优匹配结果,将判定为属于同一目标的断裂轨迹段进行数据上的拼接,将其身份ID统一为系统为该目标最初生成的ID,完成身份修正。
9.一种基于跨模态感知的自学习多目标跟踪系统,用于执行权利要求1‑8任一项所述的一种基于跨模态感知的自学习多目标跟踪方法,其特征在于:包括数据采集模块、模型训练模块、关联决策模块和分析处理模块,所述数据采集模块:用于采集监控场景的可见光和红外视频流,进行时序对齐处理后分别输入基于Transformer的跨模态融合网络生成两种模态的信息,利用交叉注意力机制深度融合所述两种模态的信息,生成融合特征图;
所述模型训练模块,用于采用基于关键点的无锚框检测器CenterNet定位所述融合特征图中物体目标,并在所述目标的中心点提取身份重识别Re‑ID特征;
所述关联决策模块:采用并行的关联与预测流程,利用状态自适应预测器SAP模块对所述目标的现有轨迹进行运动状态预测,再利用置信序列关联器CSA 模块通过在线学习马氏距离的统计分布,动态生成决策置信区间,进行决策判断,生成运动轨迹;
所述分析处理模块:用于引入全局轨迹修正器GCM模块,对所述运动轨迹的中断的轨迹碎片进行拼接处理,实现轨迹缝合,并进行身份ID修正。