利索能及
我要发布
收藏
专利号: 2024109062083
申请人: 武汉科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-25
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图像增强和NeRF的单目稠密SLAM地图构建方法,其特征在于包括以下步骤:步骤1)基于融合Retinex理论与注意力机制的低光照图像增强算法用于增强图像亮度和对比度,同时保留图像细节信息,为后续的特征点提取以及特征点匹配等任务提供更高质量的图像,包括以下步骤:步骤1.1)将低光照图像输入到由18个卷积层、4个下采样和4个上采样步骤组成的特征提取模块,卷积层使用3×3卷积核、步长和填充均为1以及采用ReLU激活函数;下采样通过步长为2的2×2最大池化实现,上采样通过步长为2的反卷积实现;通过跳跃连接机制将下采样特征图级联到相同分辨率的上采样特征图,最终输出32通道高维多尺度特征图;

步骤1.2)将输出的32维特征图输入到注意力机制模块,先经过全局平均池化操作,把提取到的特征图x压缩为通道描述符z,其公式如下:其中xc是输入的第c通道的特征图,zc为第c通道的特征描述符,H、W分别表示通道特征图的长和宽,然后对特征描述符zc采用两个全连接操作Fsq,两个全连接层之间用ReLU激活函数进行非线性处理,最后使用Sigmoid激活函数输出每个维度的权值,全连接操作公式如下所示:sc=Fsq(zc,w)=σ(w2δ(w1zc))

上式中w1,w2表示两个全连接层,σ,δ表示Sigmoid函数和ReLU函数,sc表示输出的第c通道的权值,最后将通道权值sc与特征提取模块输出的特征图xc进行重标定操作得到加权后的通道数为32的特征图;

步骤1.3)将特征图输入到由6个对称级联的卷积层和1个输出层组成的反射估计模块,每个卷积层由32个卷积核大小为3×3、步长为1的卷积操作和ReLU激活函数组成,最后一层的激活函数为Tanh,输出层输出通道数为3的光照分量的逆,最后通过输入图像与光照分量的逆逐像素相乘得到最终的增强图像;

步骤2)对增强后的图像进行特征点提取并基于四叉树法均匀化特征点,实现特征点在整个图中的均匀分布,包括以下步骤:步骤2.1)在提取特征点前先分配图像金字塔每层应提取的数量,根据单位面积提取的特征点数量相同原则对特征点进行分配,设初始图像面积为S0,图像缩放因子为s,对于n层图像的总面积为:设特征点数量为N,单位面积提取的特征点数量为:

第i层分配到的特征点为:

步骤2.2)用30×30像素的网格对图像进行区域划分,然后在每个网格中进行FAST关键点提取;

步骤2.3)在每个网格内用四叉树法对提取到的特征点进行选择,最终保留每个区域中Harris响应值最大的一个特征点;

步骤3)基于网格的运动统计算法GMS评估特征匹配的可靠性,然后采用随机样本一致性RANSAC算法进一步消除误匹配特征,从而有效提高特征匹配的准确性,包括以下步骤:步骤3.1)基于二进制描述子的汉明距离对特征点进行暴力匹配以得到初始的特征点匹配对,计算汉明距离的公式如下所示:其中n是字符串的长度,ai和bi分别是字符串a和b的第i个字符,1(ai≠bi)是指示函数,当ai≠bi时取值为1,否则取值为0;

步骤3.2)采用GMS算法对初始的特征点匹配对初筛,减少匹配数量;

步骤3.3)采用随机样本一致性算法估计两个图像之间的变换模型,识别出内点匹配对和外点匹配对,并只保留内点匹配对作为正确的特征匹配信息;

步骤4)通过相机运动估计和三角测量得到相机位姿,并通过坐标转换得到稀疏点云信息,包括以下步骤:步骤4.1)对于匹配的特征点对,计算其本质矩阵E,并从E中分解出旋转矩阵R和平移向量t,通过三角测量得到空间点在当前相机坐标系下的3D位置;

步骤4.2)通过坐标转换将所有的空间点统一到世界坐标系下,从而构建一个稀疏的点云地图;

步骤5)基于神经辐射场算法,结合颜色和深度损失函数,利用得到的相机位姿、输入图像以及3D点云信息,完成三维稠密地图构建,包括以下步骤:步骤5.1)使用线性插值方法在光线的近端和远端之间生成均匀分布的64个采样点,结合射线投影和相机模型技术,生成采样点位姿;

步骤5.2)对得到的采样点位姿进行哈希编码,具体公式如下:

其中采样点位姿假设为(xi,yi,zi),d表示位姿的维度,这里取d=3,π1,π2,π3分别是1,

14

2654435761,805459861, 表示按位异或,mod T表示取模运算,这里取T=2 ‑1;

步骤5.3)将编码后的位姿信息送入全连接网络得到采样点的颜色密度信息;

步骤5.4)利用体渲染技术获得任何光线r(t)=o+tDobs在边界[tn,tf]中的颜色C(r),其中o为相机位置,观察方向为Dobs,其渲染方程如下所示:其中用累计透射率 表示光线从tn传播到t不被遮挡的概

率,上式中σ(r(t))和c(r(t),Dobs)表示体积密度和颜色,dt表示光线在每个积分步骤中行进的微分距离;

步骤5.5)通过预测光线r的颜色C(r)和实际观测颜色C(r)之间的欧几里德距离的平方表示颜色损失;通过将NeRF技术渲染估计的深度值和3D稀疏点云的深度值的KL散度表示深度损失,其公式分别如下所示:其中R(P)表示由特定相机参数P生成的光线集合,Er∈R(P)表示对光线集合中的每条光线r计算其期望,X代表所有3D关键点的集合{X:x1,x2,x3}, 表示从相机j位置处可见的3D关键点的子集,xi∈Xj表示3D关键点xi属于相机j位置处的可见关键点; 表示在所有从相机j位置处可见的关键点xi的期望值, 表示对沿光线方向的采样点索引k进行求和,h(k)表示采样点的权重函数,tk是渲染出来的第k个采样点深度值,Dij是根据3D点云的深度值, 表示检测到关键点的视图间的平均重投影误差,Δtk表示采样点的间隔。