利索能及
我要发布
收藏
专利号: 2022112308709
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多任务学习的实时高速公路行人闯入事件检测方法,其特征在于,该方法包括如下步骤:S1、从高速公路摄像头中获取数据集;

S2、对获取的数据集进行数据增强;

S3、对数据增强后的数据集进行行人检测标注与道路分割标注以构建数据集;

S4、构建多任务学习神经网络模型;

S5、根据数据增强后的数据集对多任务学习神经网络进行训练;

S6、根据训练后的多任务学习神经网络模型对实时高速公路图像进行行人检测和道路分割;

S7、判断行人是否在高速公路上,并对高速公路上的行人进行标记和预警;

步骤S2中,对获取的数据集进行数据增强的方法如下:

(1)将原始图像进行几何变换:

随机图像旋转:将原始图像进行‑15度至+15度之间随机旋转生成新的图像;

随机水平翻转:将原始图像进行随机水平翻转生成新的图像;

(2)将原始图像进行裁剪与拼接:将图像从纵向均等切分为p1、p2、p3三部分,若p1中含有行人并且行人未被截断,则p1复制两份p11,p12,再将p1,p11,p12按照纵向拼接成新的图像;

(3)对原始图像进行行人增加:随机在所有图像上增加预设数量的行人以增加高速公路上的行人样本数量;

经过步骤(1)‑(3)数据增强后得到增强后的数据集;

步骤S3中,对增强后的数据集中的每一张图像分别进行行人检测标注与道路分割标注,其方法如下:将增强后的原始图像输入到yolov5模型中自动标注以获取初步的行人标注文件,每张图像对应一个txt标注文件,txt文件中记录该原始图像中所有的行人信息,txt文件中多行代表有多个行人,每一行表示该图像中的一个行人记录,该记录包含类别代号id,标注框的中心点横坐标与原图宽的比例center_x,标注框的中心点纵坐标与原图高的比例center_y,标注框的宽与原图宽的比例w以及标注框的高与原图高的比例h;

利用Lableme标注工具中的矩形标注按钮对上述自动标注的信息进行修正,将非行人标注成行人的情况删除;将未被标注的行人,手动添加标注;将标注框有所偏移的情况进行修正,将修正完成后的txt标注文件作为该图像的行人检测标注文件;

对同一张原始图像利用Lableme标注工具中的多边形标注按钮对图像中的道路区域以选点连线的方式形成封闭多边形,将多边形内的道路区域的像素值置为1,多边形外的背景像素值置为0,生成像素值只含有0与1的图像,将生成的图像作为该图像的分割标注文件;

将一张原始图像对应一个行人检测的txt标注文件以及一张分割标注图像,所有原始图像经过上述操作得到多个txt标注文件以及分割标注图像以构成多任务数据集;并且,将上述多任务数据集按照3:1比例划分为训练集与测试集;

步骤S5中,根据数据增强后的数据集对多任务学习神经网络进行训练,其包括如下步骤;

(1) (s)

随机选取数据增强后的训练集中S个图像数据{x ,…,x }输入到多任务模型中,得(1) (s)到相应的输出预测结果{y ,…,y };每个图像的输出预测结果包含检测结果以及分割结果两个部分,其中,检测结果包含预测出的行人边界框总数量N、每个行人边界框对应的分类预测值、置信度预测值,标注框的中心点横坐标与原图宽的比例center_x,标注框的中心点纵坐标与原图高的比例center_y,标注框的宽与原图宽的比例w以及标注框的高与原图高的比例h;分割结果输出一张与输入图像大小相同的特征图,特征图中的每一个值对应输入图像的每个位置对应的类别值,其中,预测的类别值为0,代表该位置为背景部分,预测的类别值为1,代表该位置为道路部分,根据多任务模型的损失函数,通过反向传播算法,更新迭代权重参数,将此步骤进行循环迭代训练,直至多任务网络模型收敛;

其中,所述多任务网络模型的损失函数由检测模块损失函数和分割模块损失函数两部分组成,其中检测模块损失函数Ldet为:Ldet=λ1Lcls+λ2Lloc+λ3Lobj

Lcls=‑[yilog yi′+(1‑yi)log(1‑yi′)]

Lobj=‑[filog fi′+(1‑fi)log(1‑fi′)]

其中,Lcls为分类损失函数,Lloc为位置损失函数,Lobj为置信度损失函数,λ1、λ2、λ3分别为分类损失、位置损失、置信度损失的权重,yi表示输入图像的类别真实值,yi′表示输入图像的类别预测值,P表示输入图像的预测目标框,G表示输入图像的真实目标框,P∩G表示输入图像的预测目标框与输入图像的真实目标框的交集的面积,P∪G表示输入图像的预测目标框与输入图像的真实目标框的并集的面积,Cp表示预测目标框的中心点,Cg表示真实目标2

框的中心点,ρ(Cp,Cg)表示预测目标框中心点与真实目标框中心点之间的距离,fi表示输入图像的置信度真实值,fi′表示输入图像的置信度预测值;

其中,分割模块损失函数Lseg为:

其中,M为输入图像中所有的像素点个数,pi为输入图像中第i个像素点对应位置的预测类别概率值,qi为输入图像中第i个像素点对应位置的真实标签值。

2.根据权利要求1所述的一种基于多任务学习的实时高速公路行人闯入事件检测方法,其特征在于,步骤S1中,对高速公路上摄像头获取的视频以预设帧率获取原始图像,其中,原始图像包含高速公路上不同时段、不同角度摄像头下所拍摄的图像。

3.根据权利要求1所述的一种基于多任务学习的实时高速公路行人闯入事件检测方法,其特征在于,步骤S4中,构建多任务学习神经网络模型包括共享模块、检测模块、分割模块;

a、共享模块:所述共享模块是由yolov5的第一层至第十六层构成,图像经过共享模块后得到的特征图尺寸为输入图像的八分之一,并且,得到的特征图通道数为256;

b、检测模块:所述检测模块是由yolov5的第十六层至第二十四层构成,与共享模块进行串联,将共享模块得到的特征图输入到检测模块中,通过检测模块后得到行人预测结果,其包含预测出的行人边界框总数量N、每个行人边界框对应的分类预测值、置信度预测值,标注框的中心点横坐标与原图宽的比例center_x,标注框的中心点纵坐标与原图高的比例center_y,标注框的宽与原图宽的比例w以及标注框的高与原图高的比例h,其中,置信度预测值表示该边界框中包含行人对象的确定性概率,且置信度预测值∈[0,1];

c、分割模块:所述分割模块与共享模块进行串联,与检测模块进行并联,分割模块共包含9层,依次是CBS层F1、Upsample上采样层F2、C3_1_2层F3、CBS层F4、Upsample上采样层F5、CBS层F6、C3_1_2层F7、上采样层F8以及CBS层F9;

其中,将共享模块得到的特征图先输入到F1层,F1层包含一个核大小为3*3的卷积CONV,此时特征图的通道数从256降维至128,特征图的尺寸为输入图像的八分之一;从F1得到的特征图输入到F2层,将特征图的尺寸上采样2倍,此时特征图尺寸为输入图像的四分之一,通道数不变;接着输入到F3层,将特征图的通道数从128降维至64,特征图的尺寸不变;

接着输入到F4层,将特征图的通道数从64降维至32,特征图的尺寸不变;接着输入到F5层,将特征图的尺寸上采样2倍,此时特征图尺寸为输入图像的二分之一,通道数不变;接着输入到F6层,将特征图的通道数从32降维至16,特征图的尺寸不变;接着输入到F7层,将特征图的通道数从16降维至8,特征图的尺寸不变;接着输入到F8层,将特征图的尺寸上采样2倍,恢复成输入图像的大小,并且通道数不变;接着输入到F9层,将特征图的通道数从8降维至1,特征图的尺寸不变,其为输入图像的大小;通过分割模块后,输出一张与输入图像大小相同的特征图,其中,特征图中的每一个值对应输入图像的每个位置对应的类别值,而且,预测的类别值为0,代表该位置为背景部分,预测的类别值为1,代表该位置为道路部分。

4.根据权利要求1所述的一种基于多任务学习的实时高速公路行人闯入事件检测方法,其特征在于,步骤S6中,将一张实时图像输入至训练后的多任务模型中进行行人闯入事件检测以得到行人检测结果以及道路分割结果,行人检测结果包含输入的图像中是否存在行人,若存在行人,则得到行人所在的位置;道路分割结果输出一张与输入图像大小相同的特征图,特征图的值为0或者为1,若值为0,代表输入的图像中相对应的位置为背景部分;若值为1,代表输入的图像中相对应的位置为道路部分。

5.根据权利要求1所述的一种基于多任务学习的实时高速公路行人闯入事件检测方法,其特征在于,步骤S7中,由步骤S6得到行人检测框位置与道路区域位置,根据行人检测框与道路区域的交集面积判断行人是否在高速公路上,当交集面积大于0时,则该行人在高速公路上,则进行标记并产生预警;当交集面积等于0时,则该行人不在高速公路上,不进行预警。