1.一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,具体步骤如下:
S1、利用有经验驾驶员的Hard Attention获取交通场景的显著目标图;
S2、建立融合时间信息的改进YOLOV3并进行训练优化,训练完成后进行显著目标检测。
2.根据权利要求1所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述步骤S1具体如下:S11、通过行为学实验得到含有Hard Attention信息的图片;
初始眼动数据库提供数据,记录的眼动数据能够模拟Hard Attention,将原始交通场景视频的每一帧图像提取出来,然后将通过行为学实验获得的眼动数据一一映射到相对应的交通场景原图上面,每个注视点的位置都与原图的空间位置相对应,得到含有Hard Attention信息的图片;
S12、参考含有Hard Attention信息的图片对交通场景原图进行目标标注,得到显著目标图;
使用被标注帧图片前后5帧的图片作为标注参考,保证不会漏标对驾驶环境重要的目标,标注的原则有两条:(1)从Ft‑5到Ft+5帧含有Hard Attention信息的交通场景图中至少有5帧具有眼动数据点;
其中,Ft表示当前检测帧,t表示帧数;
(2)当目标在Ft‑5到Ft+5帧含有Hard Attention信息的交通场景图中的一帧中至少有5个眼动数据点;
当目标满足以上两个条件之一时,将其标记,并最终获得显著目标图。
3.根据权利要求1所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述步骤S2中,融合时间信息的改进YOLOV3包括Hard Attention信息和时间信息融合模块、ResNets特征提取模块和融合不同阶段特征预测模块。
4.根据权利要求3所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述融合时间信息的改进YOLOV3中,Hard Attention信息和时间信息融合模块包括Hard Attention信息特征增强模块和时间信息特征提取模块,具体如下:所述Hard Attention信息特征增强模块结构包括:一组160×160尺度的残差块与一组CBAM模块;160×160尺度的残差块包含1个残差单元,CBAM包含通道注意力机制层再串联卷积核大小为[7,7]的空间注意力机制层得到特征Tcb;
所述时间信息特征提取模块结构包括:4组卷积块与一个卷积长短期记忆网络;每组卷积块具体包括:一个3×3卷积、一个批处理规范化单元、一个Leaky ReLU单元;4组卷积块的卷积核分别为8、16、32和64,最后一组卷积块的3×3卷积步长为2;卷积长短期记忆网络包括3个隐藏层,隐藏层的节点数依次为32、32、64。
5.根据权利要求4所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述Hard Attention信息特征增强模块具体如下:当前检测帧reshape为320×320×3,经过卷积块和残差块进行一次特征提取,然后输入通道注意力机制层,最后串联卷积核大小为[7,7]的空间注意力机制层,CBAM通过通道注意力机制层和空间注意力机制层计算并分配特征的权重,增强图像中的Hard Attention信息。
6.根据权利要求3所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述融合时间信息的改进YOLOV3中,ResNets特征提取模块结构包括80×
80,40×40,20×20,10×10共4组不同尺度的卷积块和残差块提取特征,具体如下:
80×80尺度的残差块包含2个残差单元,160×160尺度的残差块包含4个残差单元,40×40尺度的残差块包含4个残差单元,20×20尺度的残差块包含2个残差单元。
7.根据权利要求3所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述融合时间信息的改进YOLOV3中,融合不同阶段特征预测模块结构包括融合所有不同阶段的特征进行目标检测,将四种不同尺度的高级特征与低级特征进行特征融合用来模拟视知觉通过两条通路的信息加工进行物体识别,约束位置预测,使参数化更易学习,网络更稳定,具体如下:
4种阶段具体尺寸包括:10×10×21尺度的特征;20×20尺度的特征与10×10尺度进行上采样的特征融合后的20×20×21尺度的特征;40×40尺度的特征与20×20尺度进行上采样的特征融合后的40×40×21尺度的特征;80×80尺度的特征与40×40尺度进行上采样的特征融合后的80×80×21尺度的特征。
8.根据权利要求1所述的一种融合时间信息的改进YOLOV3交通视频显著目标检测方法,其特征在于,所述步骤S2中,融合时间信息的改进YOLOV3的训练过程,具体如下:S21、所述Hard Attention信息和时间信息融合模块结构用于增强当前检测帧的Hard Attention信息和当前检测帧缺失的时间信息特征;
将当前检测帧Ft和其之前的10帧共6帧组成一个时间序列,通过卷积LSTM提取时间信息特征,将当前检测帧增强的Hard Attention信息特征与多帧时间序列提取的时间信息特征先进行融合,再进行下一步的目标检测处理;
其中,当前检测帧之前的10帧选择隔2帧取一帧,即(Ft‑10,Ft‑8,…,Ft‑2,Ft)。
S22、所述ResNets特征提取模块用于对融合后的特征进行低级和高级特征信息提取;
S23、所述融合不同阶段特征预测模块能准确地用于对交通视频显著性区域内的不同大小和位置的目标进行检测;
S24、将数据集以约8:3:2的比列划分为训练集,验证集,测试集,为了缩短训练时间,将输入图片的大小改为320×320×3(高H×宽W×通道数C);
S25、首先随机初始化融合时间信息的改进YOLOV3参数(网络特征均以H×W×C表示),将训练集图片(320×320×3)和每帧图片及其前10帧(隔2帧取一帧,(Ft‑10,Ft‑8,…,Ft‑2,Ft))共6帧组成一个时间序列,分别输入到Hard Attention信息和时间信息融合模块模块中,将融合后的特征输入到ResNets特征提取模块中,采用二分交叉熵来计算检测出的显著‑2目标和对应标签(标准显著区域内目标)之间的损失loss值;使用初始化学习率为10 并设‑4 ‑4置最小学习率为10 ,动量值为0.937,衰减率为5 的SGD优化器进行训练,每10个epoch保存一次模型参数并更新最佳模型参数;
S26、每训练一个epoch后,用验证集对模型进行验证,不断重复步骤S21‑23进行迭代训练,直到计算出的mAP和loss值几乎没有波动,即网络中的参数基本稳定,就得到最佳模型参数,将最佳模型参数进行保存,以便后续测试使用。