1.一种基于跨视图特征融合的3D动态多目标检测方法,其特征在于,包括如下步骤:步骤一,特征提取步骤:包括点云特征提取网络和图像特征提取网络,通过并行的云特征提取网络和图像特征提取网络得到完整的多模态特征;
步骤二,特征映射与融合步骤:特征映射采用逐点对应的方式,得到点云特征与逐点对应的图像特征;特征融合过程首先计算每个点在点云特征和图像特征图中的权重,设点云加权特征为 其中LiDAR weight map为点云加权值,FL代表点云特征图,图像特征图为FC, 代表逐通道级联,×代表逐点乘积运算,图像加权特征为Camera weight map为图像加权值,接着将加权点云特征和加权图像特征进行级联,得到融合特征FRipe;
步骤三,预选框生成与检测框优化步骤包括如下步骤:
步骤1:将融合特征FRipe进行置信度检测,得到定位置信度与分类置信度图;
步骤2:对于特征图中的每一个点,生成两个角度的预选框,包含7个参数(x,y,z,h,w,l,r),分别代表坐标轴坐标和预选框的长宽高及偏向角信息;
步骤3:检测框优化,对特征的丰富度进行提升,增强对点云和图像空间的上下文结构信息的感知能力;
点云特征提取网络由划分体素空间、体素特征编码模块和子流型稀疏卷积模块构成,设点云空间沿Z,X,Y坐标轴的范围为H,D,W,采样步长为vH,vD,vW,可得体素集合为划分的体素数量分别用h、d、w表示;设集合c=(cx,Cy,Cz)为每个体素的局部质心,即每个体素采样点的坐标均值,则经过编码的体素特征集合Vin表示为 T表示矩阵转置, 为实数集合,cx、cy、cz为体素的质心坐标,ci为体素中第i个点的空间坐标(xi,yi,zi)和该点的激光雷达的反射率,t∈(0,T],代表该体素中采样点的数量,Voff表示每个点相对于局部质心C的偏移量;子流型稀疏卷积算法采用空值补零和失真区域清零的方式,保障卷积的实时性和避免卷积过程中出现失真,根据卷积尺度计算公式 Ei指输入特征图中的点,Fi指输出特征图与输入特征图对应的点,推导出八倍下采样稀疏卷积后的尺度信息,其中f代表卷积核大小,s代表卷积步长,p为零值填充;
在所述步骤二中,在进行特征映射时,为了准确找到点云与图像之间的对应关系,遍历原始大小的体素,以体素中心点为参考坐标,通过实际情况的相机内外参数与激光雷达的对应关系,找到点云中的点在图像中的对应像素点,若找不到对应像素,则跳过该点;考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距,为了防止原始图像中的像素k* k*坐标缩小八倍后不是整数,本发明采用双线性插值的方式解决;设I(m ,n )为原始图像中k* k*坐标,F(m ,n )为特征图中的坐标,则通过公式可得
其中 意为向下取整,i和j为索
k* k*
引范围,m 和n 为图像坐标系中第k个点所对应的横纵坐标,b(i,j,m,n)=max(1‑|i‑m|,k*
0)×max(1‑|j‑n|,0),m代表横坐标,代表经过归一化处理后,四个坐标点到目标点(m ,k*n )的权值, 代表四个坐标点在图像特征图中的特征向量;
所述步骤3包括:
步骤A:对预选框沿坐标轴均匀采样6×6×6个关键点,并在图像特征图中找到对应的像素点,使用PointNet进行编码,得到预选框相对应的图像特征FCamera;
步骤B:然后对各阶段的稀疏卷积特征进行提取,包含一倍、两倍、四倍、八倍下采样的m m特征,则各阶段稀疏卷积融合的特征表示为FRaw=∑m∈MM(P(max(S))),其中,S 代表为m层的体素特征向量集合,P(·)代表PointNet网络,M(·)表示多层感知机网络;
步骤C:采取逐通道级联的方式将FRipe、FCamera和FRaw融合,表示为F=[FRipe,FRaw,FCamera];
对特征图中每一个点选取0°、30°、60°、90°、120°、150°六个角度生成检测框,接着输入框优化网络,对检测框的中心、大小和方向进行残差计算;框优化网络由具有两个分支的MLP网络构成,分别进行分类置信度和定位置信度预测,则第k个ROI区域的分类置信度Gk=min(1,max(0,2IoUk‑0.5)),其中IoUk代表ROI与地面真实值的交互比。
2.根据权利要求1所述的3D动态多目标检测方法,其特征在于,图像特征提取网络由ResNetl8与特征金字塔组成,其中ResNetl8由输入模块和四个卷积模块组成,输入模块对图像进行预处理操作,采用普通卷积核最大池化相结合的方式,卷积模块加入残差网络,解决神经网络中的特征退化问题;特征金字塔使用自下而上的上采样方式,将ResNetl8得到的最下层特征图放大到最上层的特征图,通过叠加保留各层的图像特征。
3.根据权利要求1所述的3D动态多目标检测方法,其特征在于,在所述步骤1中,将融合特征FRipe通过2D卷积网络,生成定位置信度与分类置信度图。
4.根据权利要求1所述的3D动态多目标检测方法,其特征在于,在所述步骤B中,由于每层特征图的尺度不同,使用MLP网络进行归一化处理。
5.根据权利要求1所述的3D动态多目标检测方法,其特征在于,在所述步骤三中,针对定位置信度和分类置信度之间存在不一致的问题,通过强制一致性损失函数对两种置信度进行约束,表示为 其中R表示预选框,T表示地面真实值,L(·)表示定位置信度,根据置信度图预测最终检测框的位置和类别信息。
6.一种基于跨视图特征融合的3D动态多目标检测系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-5中任一项所述3D动态多目标检测方法的步骤。
7.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述的3D动态多目标检测方法的步骤。