利索能及
我要发布
收藏
专利号: 2020111766630
申请人: 杭州海康威视数字技术股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双目视觉的三维目标检测方法,其特征在于,包括:获取双目图像的视差图,以及,获取所述双目图像的图像特征;

确定所述视差图中各像素的相机坐标系坐标,并对各像素的相机坐标系坐标进行定点化操作,以得到各像素的三维网格坐标;

基于各像素的三维网格坐标,以及所述双目图像的图像特征,确定鸟瞰图数据;

对所述鸟瞰图数据进行三维目标检测。

2.根据权利要求1所述的方法,其特征在于,所述确定所述视差图中各像素的相机坐标系坐标,并对各像素的相机坐标系坐标进行定点化操作,包括:基于所述视差图中各像素的像素坐标、各像素的视差值以及相机内参,确定各像素的相机坐标系坐标;

基于预设三维空间约束区间,对所述各像素的相机坐标系坐标进行三维空间约束,以得到所述预设三维空间约束区间内的像素的相机坐标系坐标;

基于预设分割间隔,将所述预设空间约束区间内的像素的相机坐标系坐标转换为三维网格坐标。

3.根据权利要求1所述的方法,其特征在于,所述基于各像素的三维网格坐标,以及所述双目图像的图像特征,确定鸟瞰图数据,包括:对于任一通道的图像特征对应的三维网格,基于各像素的三维网格坐标,将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值;

基于各通道的图像特征对应的三维网格,确定鸟瞰图数据。

4.根据权利要求3所述的方法,其特征在于,所述基于各像素的三维网格坐标,将各像素的三维网格坐标位置的体素值置为该通道的图像特征中各像素的特征值,包括:当存在多个像素对应的三维网格坐标相同时,基于第一预设策略确定该三维网格坐标的体素值;

所述第一预设策略包括以下策略之一:

将对应的三维网格坐标相同的多个像素的特征值之和,确定为该三维网格坐标的体素值;

将对应的三维网格坐标相同的多个像素的特征值中的最大值,确定为该三维网格坐标的体素值;

将对应的三维网格坐标相同的多个像素的特征值中的非零最小值,确定为该三维网格坐标的体素值;

将对应的三维网格坐标相同的多个像素的特征值的平均值,确定为该三维网格坐标的体素值。

5.根据权利要求3所述的方法,其特征在于,基于各通道的图像特征对应的三维网格,确定鸟瞰图数据,包括:对任一通道图像特征对应的三维网格,沿高度维度进行堆叠;

基于各通道的图像特征对应的堆叠后的三维网格,确定鸟瞰图数据。

6.根据权利要求5所述的方法,其特征在于,所述对任一通道图像特征对应的三维网格,沿高度维度进行堆叠,包括:对于三维网格坐标中长度维度和宽度维度的坐标相同的多个体素,基于第二预设策略确定该多个体素堆叠后的体素值;

所述第二预设策略包括以下策略之一:

将该多个体素的体素值之和,确定为该多个体素堆叠后的体素值;

将该多个体素的体素值中的最大值,确定为该多个体素堆叠后的体素值;

将该多个体素的体素值中的非零最小值,确定为该多个体素堆叠后的体素值;

将该多个体素的体素值的平均值,确定为该多个体素堆叠后的体素值。

7.根据权利要求5所述的方法,其特征在于,用于对所述鸟瞰图数据进行三维目标检测的三维目标检测网络中的骨干网络BACKBONE与头部网络HEAD采用二维目标检测网络结构,且所述HEAD的输出包括待检测目标的三维包围盒高度h、三维包围盒在三维坐标系下的高度坐标y以及三维包围盒偏航角θ。

8.根据权利要求1-7任一项所述的方法,其特征在于,所述双目图像的图像特征通过预先训练的三维目标检测网络中的特征提取模块实现,对所述三维目标检测网络的训练,包括:

分别基于所述特征提取模块提取的图像特征进行三维目标检测任务与以及指定语义/实例分割任务;

以所述三维目标检测任务的损失以及所述指定语义/实例分割任务的损失为反馈,对所述特征提取模块进行参数调优。

9.一种基于双目视觉的三维目标检测装置,其特征在于,包括:获取单元,用于获取双目图像的视差图,以及,获取所述双目图像的图像特征;

定点化单元,用于确定所述视差图中各像素的相机坐标系坐标,并对各像素的相机坐标系坐标进行定点化操作,以得到各像素的三维网格坐标;

确定单元,用于基于各像素的三维网格坐标,以及所述双目图像的图像特征,确定鸟瞰图数据;

检测单元,用于对所述鸟瞰图数据进行三维目标检测。

10.根据权利要求9所述的装置,其特征在于,所述定点化单元确定所述视差图中各像素的相机坐标系坐标,并对各像素的相机坐标系坐标进行定点化操作,包括:基于所述视差图中各像素的像素坐标、各像素的视差值以及相机内参,确定各像素的相机坐标系坐标;

基于预设三维空间约束区间,对所述各像素的相机坐标系坐标进行三维空间约束,以得到所述预设三维空间约束区间内的像素的相机坐标系坐标;

基于预设分割间隔,将所述预设空间约束区间内的像素的相机坐标系坐标转换为三维网格坐标。

11.一种基于双目视觉的三维目标检测系统,其特征在于,包括:双目相机、处理器和机器可读存储介质;

所述双目相机,用于获取双目图像;

所述机器可读存储介质,用于存储能够被所述处理器执行的机器可执行指令;

所述处理器,用于执行机器可执行指令,以实现权利要求1-8任一项的方法步骤。