利索能及
我要发布
收藏
专利号: 2024108065474
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,包括将三维点云转换成二维距离图像,提取环视图像特征和距离图像特征,构建神经网络结构,进行神经网络训练与鲁棒位置识别;构建神经网络结构包括设计视觉特征图垂直压缩模块、多模态特征融合与描述符聚合模块和后期融合模块;

设计多模态特征融合与描述符聚合模块包括设计多模态特征融合Transformer模块和设计描述符聚合模块,设计多模态特征融合Transformer模块包括将环视图像特征编码模块和OverlapNetLeg模块输出的距离图像特征同时送入多模态特征融合Transformer模块提取不同传感器采集到的特征,视觉特征图维度与点云特征图维度相等;

多模态特征融合模块分为视觉特征图分支和点云特征图分支,通过单个Transformer模块堆叠起来;

设计后期融合模块包括描述符聚合模块输出的视觉描述符、点云描述符、视觉‑点云融合描述符输入后期融合模块,计算每个描述符的相似度,应用融合策略组合为全局描述符用于位置识别检索,视觉特征图分支使用视觉特征图中的查询特征以及点云特征图中的键和值特征提取不同模态之间的相关性;

设计视觉特征图垂直压缩模块包括,对环视图像特征编码模块输出的特征图进行垂直压缩操作,对于视觉特征图,环视图像特征编码模块输出特征量维度为 ,C是距离图像的长,沿着宽度维度进行拼接,将拼接后维度为 的特征量输入垂直压缩模块进行特征压缩操作,得到压缩后特征 ;

通过广义调和平均数获得广义 均值:

式中, 是广义 均值,为超参数,为描述符聚合模块输出的一维全局描述符,为描述符的数量, 为第n个模态特征图生成的一维全局描述符, 和 为中间参数; 表示每个描述符通过欧几里得距离计算得到的相似度得分, 为 的倒数;

均值和功效 为:

的最小值和最大值为:

最大值:

最小值:

式中,和 为超参数。

2.根据权利要求1所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,将三维点云转换成二维距离图像包括,利用球面投影将三维点云转换成二维距离图像,点云坐标 转换为图像坐标 :;

式中,和 表示距离图像的宽和高,表示每个点的距离, 表示激光雷达的垂直视角,表示 向上的角度。

3.根据权利要求2所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,提取环视图像特征和距离图像特征包括,设计环视图像特征编码模块,通过图像编码器提取N个摄像头采集的视觉图像特征,设计距离图像特征编码模块,通过OverlapNetLeg全卷积编码器提取点云投影的距离图像特征。

4.根据权利要求3所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,设计环视图像特征编码模块包括,使用N个摄像头采集的360度环视图像作为输入数据,记为 , 是输入数据的 , 是输入数据的 ,通过嵌入注意力机制的多路图像权重共享的编码器捕获多层次、多通道的细粒度特征,利用轻量化ResNet‑18网络处理图像特征,摄像头的数量与权重共享分支数相等,在每条支路的深、浅层级联卷积层之后嵌入通道注意力机制,对每个通道赋予不同的权重。

5.根据权利要求4所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,设计距离图像特征编码模块包括,将尺寸 的距离图像通过全卷积编码器OverlapNetLeg提取全局图像特征, 是输出数据的 , 输出数据的 ,编码器中的卷积滤波器仅压缩垂直维度的距离图像,不改变宽度维度,没有填充和丢失;OverlapNetLeg输出特征量 维度为 。

6.根据权利要求5所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,设计描述符聚合模块包括将视觉特征图 、点云特征图 、视觉‑点云融合特征图通过三个NetVLAD‑MLP模块聚合得到一维全局描述符。

7.根据权利要求6所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,通过1个Transformer块的多头自注意力提取的特征量表示为 ,交叉注意力机制为:;

式中, 是来自视觉特征图 经过维度变换的查询特征, 和 是点云特征图经过维度变换的键特征和值特征, 表示特征维度;

将 输入层归一化和多层感知机,通过LN操作生成第一个Transformer块的 :;

式中, 表示维度变换操作;

对于点云特征图分支,采用和视觉特征图分支相同的操作,得到视觉特征图分支的交叉注意力机制 和视觉特征图分支的注意力增强融合特征 ;

将最后一个Transformer块中的 与 连接起来,获得中间融合特征 。

8.根据权利要求7所述的大尺度环境下融合相机与激光雷达的位置识别方法,其特征在于,使用三元组损失进行训练,对于每个训练步骤,设置每个批包含一个查询样本 、一个正样本 以及 个负样本 :;

式中,表示训练损失, 表示样本输入到全局描述符的映射, 表示欧式距离,表示避免负损失阈值。