买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种多模数据融合的三维目标检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种多模数据融合的三维目标检测方法

￥13000

专利号： 2020113728987

申请人：江南大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多模数据融合的三维目标检测方法，其特征在于，所述方法在获取到真实场景的图片和对应的点云数据后，首先使用特征提取器VFE将点云数据的体素特征转为高阶表示；之后，利用预训练的faster RCNN网络提取图片多层语义特征，然后根据投影关系，将点云投影到图片多层语义特征上，通过双线性插值分别获得点云对应的图片多层语义特征；

然后，通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息；通道和体素双注意力机制增强有用特征，抑制无用特征；最后体素特征送入卷积网络和区域提议网络实现目标检测；

所述通过聚合体素邻域点云特征以弥补体素过程中丢失的特征信息，具体步骤包括：

给定一个点云{Pt＝(xt,yt,zt,rt)|t＝1,…,N}，其中(xt,yt,zt)为点Pt的世界坐标，rt为点Pt反射值特征；对于体素坐标在半径不大于r的邻域内寻找最多K个点，则得到体素坐标的邻域集合其中，为世界坐标，coordj为点Pj的世界坐标，坐标偏移量

与点云特征rj进行连接以表明点云特征的局部相对位置；

对于体素Vi，邻域半径为r，利用PointNet来产生其局部特征

其中，Q为对邻域集合的随机采样以保持最多K个邻域点，M为一个对点的特征和局部位置进行编码的叠加全卷积网络，max为最大池化操作，以保证所有体素特征维度一致；

叠加全卷积网络由两个全卷积网络组成，每个全卷积网络由一个二维卷积、一个批归一化和一个ReLU操作组成，二维卷积的卷积核大小为1，输出维度为32；

设置两个不同的半径r和j，和的特征维度均为32，连接二者特征获得

最后加强的体素特征维度为64；

此时所有体素特征经过加强后，其特征为(D,W,H,64)；

所述通道和体素双注意力机制增强有用特征，抑制无用特征，具体步骤包括：

通道注意力发掘不同模态特征的重要程度，通道注意力的输入为图片特征、VFE特征和体素邻域加强特征，通道注意力由两个线性层和一个sigmoid操作组成；

体素注意力挖掘不同体素特征对三维目标检测的贡献程度，增强有用特征，抑制无用特征，体素注意力由一个线性层和一个sigmoid操作组成。

2.根据权利要求1所述的方法，其特征在于，以kitti目标检测标记数据集作为真实场景的图片和对应的点云数据，所述方法包括：(1)将kitti目标检测标记数据集上的点云数据划分为一个空间均匀分布的三维体素网格，沿着x、y、z方向，点云数据的长、宽和深度范围分别为d、w和h；定义每个体素的长、宽和深度分别为vd、vw、vh，则最后的三维体素网格的长、宽和深度为(2)构建特征提取器，所述特征提取器VFE由一个全连接网络和一个最大池化操作组成，叠加的特征提取器在体素级别对体素内的每个点进行编码，输出VFE特征；全连接网络由一个线性层、一个批归一化操作和一个ReLU层组成；

(3)训练一个基于resnet的faster RCNN网络；将resnet的层1至层4模块作为图片的多层语义特征提取器，输出图片特征图；

(4)利用点云与图片之间的映射关系，将点云映射到图片特征图，通过插值获取点云对应的图片多层语义特征信息，使用一个全连接网络对图片特征进行转换，之后对每个点的多层语义特征进行连接；

(5)对于体素V坐标Vcenter，在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息；

(6)通道注意力发掘不同模态特征的重要程度，通道注意力的输入为图片特征、VFE特征和体素邻域加强特征，通道注意力由两个线性层和一个sigmoid操作组成；

(7)体素注意力挖掘不同体素特征对三维目标检测的贡献程度，增强有用特征，抑制无用特征，体素注意力由一个线性层和一个sigmoid操作组成；

(8)经过双注意力机制加强的体素特征送入到一组卷积中间层，输出体素特征(9)区域提议网络将卷积中间层的输出特征在H维度进行压缩，通过下采样和上采样操作获取特征图，对上采样特征进行连接，输出最后特征图(10)将最后特征图送入分类器和回归器，分别得到待检测目标的种类和位置、目标大小及方向。

3.根据权利要求2所述的方法，其特征在于，所述特征提取器由两个叠加的特征提取器VFE1和VFE2组成，所述(2)构建特征提取器，包括：

2.1定义为一个非空体素，非空体素内包含5个点，

其中xi,yi,zi为点Pi的三维坐标，ri为点Pi反射值，点的特征即为三维坐标与反射值；

2.2计算非空体素V内所有点的坐标均值作为体素V的聚类中心(cx,cy,cz)，同时体素在三维体素网格中的坐标作为体素V的坐标Vcenter(vx,vy,vz)，然后计体素V内每个点相对聚类中心和体素坐标Vcenter的坐标偏移，并对点的特征进行连接，从而获取特征提取器VFE输入Vin：

2.2输入特征Vin通过全连接网络进行特征升维转换到特征空间

此时非空体素V内所有点的特征维度升至m维，m＝64；之后通过聚合Vfeature特征信息对每个体素所表示的三维物体的表面形状进行编码，即对Vfeature进行最大池化获取体素V的局部聚合特征

2.3将2.2获取到的非空体素V的局部聚合特征Vlocal与Vfeature进行连接以对V内所有点进行特征增强；得到特征提取器VFE的输出Vout：T表示体素内包含点的个数。

4.根据权利要求3所述的方法，其特征在于，所述将resnet的层1至层4模块作为图片的多层语义特征提取器，输出图片特征图，包括：输入图片维度，包括图片的宽、高和通道，resnet的层1至层4依次提高图片通道维数到

256、512、1024和2048，以2倍比例减少图片尺寸大小，特征金字塔网络1至特征金字塔网络5依次将不同通道维数统一至相同维数，输出图片的多层语义特征。

5.根据权利要求4所述的方法，其特征在于，所述利用点云与图片之间的映射关系，将点云映射到图片特征图，通过插值获取点云对应的图片多层语义特征信息，使用一个全连接网络对图片特征进行转换，之后对每个点的多层语义特征进行连接包括：对于点云中一个点P(x,y,z,r)，点P映射到图片上，获取对应的多层语义特征为使用一个全连接网络对图片特征进行转换，输出维度128，之后对每个点的多层语义特征进行连接，将连接特征进一步转换，最后输出维度128，则最后点P的图片特征为对于一个体素，通过将体素内点云着色，T个点对应的图片特征为128维，体素内T个点的图片特征进行聚合操作以获得体素级别特征，此时体素图片特征为(D,W,H,128)；

对于体素V坐标Vcenter，在点云内获取其邻域内K个点的局部特征以弥补体素过程中丢失的特征信息。

6.根据权利要求5所述的方法，其特征在于，通道注意力中两个线性层为Linear1(256,

32)和Linear2(32,256)，Linear1(256,32)代表输入为(D×W×H，256)，输出为(D×W×H，

32)，输入为256维，输出为32维，Linear2(32,256)同理。

7.根据权利要求6所述的方法，其特征在于，体素注意力中线性层输入输出分别为259和1。

8.根据权利要求7所述的方法，其特征在于，所述区域提议网络将卷积中间层的输出特征在H维度进行压缩，通过下采样和上采样操作获取特征图，对上采样特征进行连接，输出最后特征图包括：卷积中间层由5个卷积模块组成，第一个卷积模块为Block1(SubMConv3d(),SubMConv3d())：由两个子流行卷积模块组成，其中子流行卷积模块由一个子流行卷积、一个批归一化和一个ReLU操作组成，子流行卷积输入维度256，输出维度16；第二到第四个卷积模块均由一个稀疏卷积模块和两个子流行卷积模块组成，其中稀疏卷积模块由一个稀疏卷积、一个批归一化和一个ReLU操作组成；第二到第四个卷积模块输出维度分别为32,64,

64；第五个卷积模块由一个稀疏卷积模块组成，稀疏卷积步长为(1,1,2)，输出维度为128；

经过卷积中间层的体素特征变为

区域提议网络由两个下采样模块和两个上采样模块组成；每个下采样模块由六个全卷积网络Conv2d组成，除了第二个下采样模块中第一个全卷积网络的步长为2，其余全卷积网络步长均为1，每个下采样模块的后五个全卷积网络输入输出维度一致，两个下采样模块输出维度分别为128和256；每个全卷积网络都包含一个二维卷积、一个批归一化和一个ReLU操作；上采样模块将两个下采样模块的输出升维至256以保持特征图的高分辨率；对两个上采样模块的输出维度进行连接获取最后特征图为

9.根据权利要求8所述的方法，其特征在于，所述将最后特征图送入分类器和回归器，分别得到待检测目标的种类和位置、目标大小及方向，包括：分类器为一个二维卷积conv2d(512，18)，输入512维，输出18维，输出为目标的种类；回归器为一个二维卷积conv2d(512，42)，输入512维，输出42维，输出目标框的三维世界坐标、长宽高以及相对z轴的偏航角。