利索能及
我要发布
收藏
专利号: 2024102608015
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种自动驾驶多任务场景分析方法,其特征在于,所述方法包括:获取自动驾驶系统拍摄到的实时道路场景图像;

将实时道路场景图像输入改进后的CenterNet模型中,输出多任务合并后的分析检测结果图像;

其中,改进后的所述CenterNet模型包括检测头,所述检测头包括并行处理任务的目标检测头、语义分割头和姿态估计头,所述目标检测头用于预测每个目标的中心点,进一步回归得到目标对应的矩形检测框;所述语义分割头使用softmax 层对特征图的每个像素点进行所有类别对应概率预测,从而进行语义分割;所述姿态估计头用于提取特征图中人体关节点进行估计人类姿态。

2.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,改进后的所述CenterNet模型还包括编码器和主干网络,所述编码器用于将图像缩小到能够直接输入主干网络,所述编码器包括两个下采样层,下采样使用步长为2的最大池化层实现;所述主干网络用于为检测头输出特征图。

3.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,所述目标检测头的训练方法包括:根据道路场景数据集中的标注信息得到基于真实中心点的热力图Y,将热力图Y经过下采样后,得到基于中心点的真实热力图 ;

使用高斯核  对真实热力图Y进行处理,将高斯核 映射到热力图Y的每个目标中心点上,得到处理过的真实热力图Y,其中 为目标尺寸自适应标准差,x、y为高斯核函数中的坐标,c为目标类别, 为真实中心点坐标 的x轴坐标值,为真实中心点坐标 的y轴坐标值;

根据处理过的真实热力图Y与预先检测到的热力图 训练目标检测头,包括:预先检测到的热力图 的损失函数采用Focal loss,记为 ,公式如下:;

其中,α和β是Focal loss的超参数, Ncenter是图像I中的中心点数量, 是预测到的中心点热力图上坐标(x,y)关于类别c中心点的预测值,Yxyc是真实热力图上坐标(x,y)关于类别c中心点的值;

采用L1 loss作为中心点偏移量的损失函数预测下采样导致的中心点偏移量,记为,公式如下:;

其中, 为预测的目标中心点偏移量;

在下采样后的数据集图片中,设 是类别c的第k个目标的检测框,计算得到目标k的尺寸为 ,尺寸的损失函数采用L1 loss,记为 ,公式如下:

其中, 是预测的目标尺寸大小,所有类别目标共享。

4.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,所述姿态估计头的训练方法包括:根据道路场景数据集中的标注信息得到真实人体关节点的热力图;

将得到的真实人体关节点的热力图经过下采样后,得到处理后的真实人体关节点的热力图 ,根据处理后的真实人体关节点的热力图 ,得到原始图像中关节点坐标为 ,图像经过下采样后关节点坐标转换为 ;

根据得到处理过的真实人体关节点的热力图 与预先检测到的人体关节点热力图  ,对姿态估计头进行训练,包括:使用Focal loss作为人体关节点热力图损失函数,公式为:;

其中,α为超参数, 表示下采样后的原始图像上坐标为(x,y)的点是否存在关节点,存在则为 ,反之不为1;Nkeypoint为图像I中的关节点数量;

用于训练关节点偏移量的损失函数为L1 loss,公式为:;

其中, 为预测的目标中心点偏移量;

若预测的关节点在人类目标检测框内,则保留该关节点,否则省略;同时省略置信度小于0.1的关键点,将在同一个人类目标检测框内的关节点合为一组,将关节点相连,则得到人体姿态的预测结果,完成姿态估计头训练。

5.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,所述语义分割头使用softmax loss作为损失函数,用 表示,公式如下:;

其中, 为点(x,y)真实的概率分布,Npixel为图像I的像素点总数。

6.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,所述CenterNet模型的函数公式为:;

其中, 为目标检测头中的中心点热力图损失函数, 为目标检测头中的目标检测框大小损失函数, 为目标检测头中的中心点偏移量损失函数; 为姿态估计头中的人体关节点热力图损失函数, 为姿态估计头中的人体关节点偏移量损失函数;

为语义分割头中的像素点类别概率分布训练函数; 为目标检测框大小损失函数的权重, 为像素点类别概率分布训练函数的权重。

7.根据权利要求1所述的自动驾驶多任务场景分析方法,其特征在于,改进后的所述CenterNet模型的训练方法包括:构建初始CenterNet模型;

采集道路场景图像,创建道路场景数据集;

对道路图像中的每一个目标进行标注,获得其位置、类别信息,对行人目标进行关键点标注,关键点位置为行人的关节处,对图像进行预处理,并将数据集分为训练集和验证集;

将训练集和验证集输入改进后的CenterNet模型进行训练,等待训练完成,得到改进后的CenterNet模型。

8.根据权利要求2所述的自动驾驶多任务场景分析方法,其特征在于,所述主干网络为DLA‑34网络。

9.根据权利要求2所述的自动驾驶多任务场景分析方法,其特征在于,所述编码器用于将512*512像素大小的数据集图像缩小到128*128的像素大小的图像。

10.一种自动驾驶多任务场景分析系统,其特征在于,所述系统包括:获取模块,获取自动驾驶系统拍摄到的实时道路场景图像;

检测模块,将实时道路场景图像输入改进后的CenterNet模型中,输出多任务合并后的分析检测结果图像;

其中,改进后的所述CenterNet模型包括检测头,所述检测头包括并行处理任务的目标检测头、语义分割头和姿态估计头,所述目标检测头用于预测每个目标的中心点,进一步回归得到目标对应的矩形检测框;所述语义分割头使用softmax 层对特征图的每个像素点进行所有类别对应概率预测,从而进行语义分割;所述姿态估计头用于提取特征图中人体关节点进行估计人类姿态。