买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法

面议

专利号： 2020104392996

申请人：重庆理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于通过利用卷积关联网络与轻量级目标检测网络共享特征，来捕获目标间的关联性，从而实现目标跟踪，具体包括以下步骤：A1‑1、获取一个一阶段目标检测模型，然后一共经过5次下采样，在最后三个尺度的特征图上进行预测，除了第一次下采样时采用普通卷积模块，后面四次下采样均采用多尺度下采样模块，并将模型在最后三次下采样的特征图上做目标框预测，最终构成轻量级行人目标检测网络；

所述多尺度下采样模块中包含有第一多尺度下采样模块A、第二多尺度下采样模块B；

所述的第一多尺度下采样模块A由卷积核为3×3、步长为2的可分离卷积模块和滑动窗口为3×3、步长为2的最大池化层，再接一个卷积核为1×1、步长为1的可分离卷积模块组成，所述第一多尺度下采样模块A用于第二次下采样，所述的第二多尺度下采样模块B是在第一多尺度下采样模块A的基础上增加了由卷积核为1×1、步长为1的可分离卷积模块，卷积核为3×3、步长为1的可分离卷积模块以及卷积核为3×3、步长为2的可分离卷积模块组成提取的特征，且所述的第二多尺度下采样模块B用于后面三次下采样；

A2‑1、按照以下三个步骤预测目标关联矩阵

①将轻量级行人目标检测模型骨干网提取到的三层特征图分别通过一个卷积核为1×

1的普通卷积模块进行特征降维；

②在每层特征图上找到目标框对应的特征点，三层特征图上对应的特征点拼接起来作为该目标的特征向量，并将两帧图像中所有目标的特征向量经过特征穷举排列拼接成一个新的混合特征向量；

③将混合特征向量送入映射网络得到一个编码两帧图像中目标表观特征相似性的特征相似矩阵，映射网络由5个卷积核为1×1的普通卷积模块构成，对目标相似矩阵按行或列做softmax函数即可得到目标关联矩阵；

A3‑1、然后通过卷积关联网络设计行人目标跟踪策略，最终获得行人关联的目标跟踪结果；

卷积关联网络设计行人目标跟踪策略的具体步骤如下：

A1、将t时刻的图像帧输入轻量级行人目标检测模型，得到目标框Bt与图像特征Ft；

A2、从轻量级行人目标检测模型得到的目标框Bt与图像特征Ft输入卷积关联网络，从中提取当前帧的目标特征H

A3、若当前帧为视频的第一帧，初始化历史特征集合F与轨迹集合Tt，将当前帧的目标H特征加入F ，为当前帧中的每个目标建立一个轨迹加入Tt，转到步骤A8；若当前帧非H视频的第一帧，则将当前帧的目标特征分别与F中的所有历史帧目标特征两两配对，由卷积关联网络计算每对图像帧的目标特征相似矩阵由该特征相似矩阵得到每对图像帧的综合预测目标关联矩阵H

A4、检查历史帧目标特征集合F中的历史帧目标特征数是否达到其能存储的最大数目H Hh：若没有，将当前帧的目标特征加入F；若F中的历史帧目标特征数已达到h，则移除离H当前帧时间最远的那一帧的目标特征，再将当前帧的目标特征加入FA；

A5、根据步骤A3中的综合预测目标关联矩阵计算当前帧中的目标与已存在轨迹之间的轨迹关联矩阵A6、根据步骤A5中得到得轨迹关联矩阵更新当前时刻t已存在的确定轨迹Tt和待定轨迹 ①若当前帧中的某目标i被分配给确定轨迹更新确定轨迹更新该确定轨迹的未成功关联目标帧数u＝0；若当前帧中的某目标i被分配给待定轨迹更新待定轨迹更新该待定轨迹的成功关联目标帧数c＝c+1；②若当前帧中的某目标未被分配给任何已存在轨迹，则为其建立一个新的轨迹，加入待定轨迹集合设该待定轨迹的成功关联目标帧数c＝1；③若某确定轨迹在当前帧中未找到与之关联的目标，则其更新该确定轨迹的未成功关联目标帧数u＝u+1；若某待定轨迹在当前帧中未找到与之关联的目标，则更新该待定轨迹的成功关联目标帧数c＝0，并从待定轨迹集合中删除该轨迹，该轨迹为待定轨迹集合中未能与当前帧中任一目标关联的轨迹；

A7、检查确定轨迹集合Tt与待定轨迹集合 ①若确定轨迹集合Tt中某轨迹的未成功关联目标帧数u超过阈值Δw，则认为该目标离开图像，从确定轨迹集合Tt中删除，该轨迹指的是：确定轨迹集合中连续Δw帧没有目标与其关联的轨迹；②若待定轨迹集合某轨迹的成功关联目标帧数c超过阈值Δd，则认为该目标是新进入图像的目标，将该轨迹加入确定轨迹集合Tt，设此确定轨迹的未成功关联目标帧数u＝0，并从待定轨迹集合中删除该轨迹；

此时的确定轨迹集合Tt即为t时刻的行人目标跟踪结果；

A8、令t＝t+1，获取下一时刻的图像帧。

2.根据权利要求1所述的一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：轻量级目标检测网络的模型设计具体包括以下步骤：G1、每个尺度的特征图都对应在训练集聚类得到的3个尺度的先验框，将特征图上的每个点看作目标中心，以每个先验框为基准预测目标框，一共预测三个目标框；

G2、行人目标检测模型在检测行人目标的过程中做了三个方面的预测：目标框位置、置信度与目标类别，相应地，模型的损失函数也由三部分构成：目标框位置损失Lcoor、置信度损失Lconf与目标类别损失Lclass；分别按如下进行计算：

1‑1、目标框位置损失Lcoor又由中心点坐标误差和宽高误差组成，计算公式如下：其中W、H为特征图的宽和高，B为每层特征图上先验框的个数，i为特征图上第i个点，共为W×H个点，j为第i个点的第j个预测框，共B个，是一个二值函数，用来判断第i个特征点的第j个预测框是否含有目标，如果此预测框与标签中的某个真实目标框的DIoU比其他预测框与该真实目标框的DIoU都大，则说明此预测框负责预测该目标框，的值为1，否则为0，DIoU是用来衡量预测框于真实框的重叠度的指标，为预设值，d为距离函数，表示预测中心点与真实中心点的欧式距离，而表示预测框宽高的平方根与真实框宽高的平方根的欧式距离；

1‑2、置信度损失Lconf是预测框中的目标属于某个目标类别的损失，采用二值交叉熵来计算，其计算公式为：其中与相似，也是一个二值函数，不同的是，只要某个预测框与真实框之间的DIoU大于阈值，的值即为1，否则为0，因为无论一个预测框是否负责预测某个真实目标框，只要它与该目标框的重叠度达到一定阈值，就可用来计算目标框的置信度，由于不负责预测真实目标的预测框远多于负责预测真实目标的预测框，所以加入了一个超参数λnopre来平衡两类预测框贡献的损失，设定λnopre设为0.5；

1‑3、目标类别损失Lclass也采用二值交叉熵来计算，其计算公式为：

其中classes表示预测目标的类别，本跟踪只有行人一个目标类别，

1‑4、然后计算小型行人目标检测模型的损失函数L为：

L＝λcoorLcoor+Lconf+Lclass (3.4)其中超参数λcoor设置为5，用来增加目标框位置损失占整个损失函数的权重。

3.根据权利要求2所述的一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：所述普通卷积模块是由一个卷积层后加一个批量标准化层，再经过激活函数Leak ReLU组成的，且卷积模块中的卷积操作将使用大小为1的填充。

4.根据权利要求2或3所述一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：在每次下采样操作之后通过残差模块训练提取特征，然后直接将前一层的输出加到后一层的输出上，同时通过实现恒等映射的跳跃连接将网络高层的梯度直接传递到网络底层，以加速网络训练。

5.根据权利要求2所述一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：在5次2倍下采样完成之后进一步丰富特征信息采用空间金字塔池化模块训练，所述空间金字塔池化模块由3个不同尺寸步长为1的最大池化层组成，该空间金字塔池化模块分别对上层网络输出做滑动窗口为3×3、5×5、7×7的最大池化，然后将得到的特征连接起来，经过一个卷积核为1×1、步长为1的可分离卷积模块。

6.根据权利要求2所述一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：DIoU大于阈值的预设阈值为0.5。

7.根据权利要求1所述一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法，其特征在于：卷积关联网络的具体设置步骤如下：S1、获取以Ft、Ft+n作为模型输入，时间间隔为n的两帧图像从轻量级行人检测模型网络得到的第8倍下采样、第16倍下采样和第32倍下采样特征图的集合，其通道数分别为384、

192、96，在本文中n的最小值为1，最大值为30；

S2、获取以Bt、Bt+n作为模型输入，时间间隔为n的两帧图像中所有行人目标框的集合，再经过特征降维之后三层特征图的通道数降为192、96、48；将行人目标框Bt、Bt+n转换为目标中心点坐标，在三层特征图上分别找到对应的特征点，同一目标的三个特征点按通道拼接在一起作为目标的特征向量，每个目标的特征向量维度为336；

S3、获取每帧图像中能够同时跟踪到的最大目标数量NmaX，NmaX设为80，然后根据公式(1)、公式(2)获得两帧图像中的所有目标特征向量构成的特征矩阵；

其中：当图像中目标数小于NmaX时，特征矩阵用零填充，中的第i行表示t时刻图像帧中第i个目标的特征；

S4、根据公式(3)，获得由中所有目标向量穷举排列，并按通道拼接得到的混合特征向量；

其中：Fper的第i行第j列个元素是由中第i行特征向量与中第j行特征向量在通道维度拼接得到的，Fper中每个元素的维度为672；

S5、然后将由5个卷积核为1×1的普通卷积模块组成的小网络定义为MapNet，用来捕获目标表观特征的相似性，其中通道数分别为336、168、84、42、1，同时在整个网络中不改变输入特征图的分辨率；

S6、最后按照公式(4)模型输出，并进行编码两帧图像目标间特征的相似程度，以此获得目标间的特征相似矩阵；

其中：第i行表示t时刻图像帧中第i个目标的特征与t+n时刻图像帧中所有目标的特征间的相似性，第j列表示t+n时刻图像帧中第j个目标的特征与t时刻图像帧中所有目标的特征间的相似性。