利索能及
我要发布
收藏
专利号: 2024103872072
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种矿井辅助运输车辆无人驾驶的单目深度估计方法,基于矿井辅助运输车辆无人驾驶的单目深度估计系统实现,其特征在于,所述矿井辅助运输车辆无人驾驶的单目深度估计系统包括深度网络模型和多帧位姿优化模块;所述深度网络模型包括编码器、全局注意力模块和特征融合加权解码模块;所述全局注意力模块包括通道注意力模块和空间注意力模块;所述特征融合加权解码模块包括解码器和预测头;

编码器、全局注意力模块、解码器以及预测头用于依次对目标图像进行处理得到预测深度图像,多帧位姿优化模块用于结合目标图像、预测深度图像以及源图像进行图像重建和损失优化处理,以得到图像深度估计结果;

所述矿井辅助运输车辆无人驾驶的单目深度估计方法包括以下步骤:

步骤S1:获取视频序列中的当前帧图像,并将当前帧图像输入至深度估计网络模型中进行深度估计,获得当前帧图像的深度图;

步骤S2:将深度图、当前帧图像以及视频序列中的上下多帧图像输入至多帧位姿优化模块中获得最终经过优化的相机相对位姿变化T0→final;具体方法为:步骤S2‑1:预测源图像Is与目标图像I0间的中间相机位姿T0→s;并重建由中间位姿扭曲得到的投影图像I's;具体内容为:将目标图像I0、其前后两帧图像序列Is,s∈{‑2,‑1,1,2}与经过深度估计网络输出的深度图D0按时间序列成对输入到多帧位姿优化模块中,依次得到每对图像间的相对位姿,并经过变换运算得到目标图像到其前后帧图像的相机相对位姿T0→s;运算公式为:Tt→t'=Invert(Tt'→t);Tt→t”=Tt→t'×Tt'→t”;其中,Invert(.)代表反转刚体变换的运算;符号×代表矩阵乘法;t,t',t”指代图像序号;最后,将结合相对位姿与目标图像通过重投影扭曲运算,可得到中间重投影图像I's;

步骤S2‑2:预测由中间重投影图像I's与目标图像I0间的残余位姿T'0→s,并与第一阶段的相机相对位姿T'0→s结合,输出最后得到的相机位姿T0→final;具体方法为:依次将中间重投影图像与目标图像成对输入到同一个位姿估计网络中得到每对图像间的相对位姿,再通过纵向迭代将其变换成目标图像到源图像的残余相对位姿,最后,将残余相对位姿结合第一阶段估计的中间位姿输出优化的相机相对位姿T0→final;

步骤S3:将T0→final和深度图作为计算依据进行图像重建,得到由当前帧图像投影到上下多帧视角的投影图像;

步骤S4:计算光度重投影损失函数和次要损失函数,得到总损失,并进行多次学习迭代得到训练完成的深度估计网络模型;

步骤S5:将单张图像作为训练完成的深度估计网络模型的输入,经模型预测后得到图像深度估计结果。

2.根据权利要求1所述的矿井辅助运输车辆无人驾驶的单目深度估计方法,其特征在于,在步骤S1中,将当前帧图像输入至深度估计网络模型中进行深度估计获得当前帧图像的深度图的具体方法为:步骤S1‑1:通过编码器对输入图像进行特征提取,获得具有深层特征信息的特征图;

步骤S1‑2:将特征图输入至全局注意力模块中,进一步提取有价值的特征信息,抑制无价值的特征信息,输出与原输入尺寸相同的特征图;

步骤S1‑3:通过特征融合加权解码模块对特征图进行解码,获得最终的解码特征图;

步骤S1‑4:通过由激活函数和卷积组成的预测头对解码特征图进行计算,输出深度图。

3.根据权利要求2所述的矿井辅助运输车辆无人驾驶的单目深度估计方法,其特征在于,在步骤S1‑2中,得到与原输入尺寸相同的特征图的具体方法为:步骤S1‑2‑1:通过通道注意力模块对输入特征进行处理得到通道注意力特征,结合通道注意力特征和输入特征进行计算得到中间特征,计算公式为: 其中,Fm为中间特征;Fi为输入特征,Fi∈C×H×W;C、H、W、为图像三维度信息;CAM(·)表示求出通道注意力特征的运算; 表示基于元素的乘法;

步骤S1‑2‑2:通过空间注意力模块对中间特征进行处理得到空间注意力特征,结合空间注意力特征和中间特征计算得到输出的特征图,计算公式为: 其中,Fo表示输出的特征图;SPAM(·)表示求出空间注意力特征的运算。

4.根据权利要求2所述的矿井辅助运输车辆无人驾驶的单目深度估计方法,其特征在于,在步骤S1‑3中,通过特征融合加权解码模块对特征图进行解码,获得最终的解码特征图的具体方法为:步骤S1‑3‑1:通过解码器对输入特征进行卷积和上采样处理,以实现对输入特征的解码;

步骤S1‑3‑2:将跳跃连接特征与解码器上层输入特征图相加得到特征记为Z,并计算局部通道上下文L(Z)和全局通道上下文g(Z),计算公式为:L(Z)=B(PWConv2(δ(B(PWConv1(Z)));g(Z)=L(Avgpool(Z));其中,B(·)代表BN层,δ(·)代表通过ReLU激活函数,PWConv1和PWConv2的核大小分别为 和 r为缩减率;Avgpool(.)代表平均池化过程;

步骤S1‑3‑3:将局部通道上下文L(Z)和全局通道上下文g(Z)相加并通过激活函数得到输入特征两者的注意权重结果,记为W(Z);

步骤S1‑3‑4:将上一层解码曾输入特征图记为X,跳跃连接特征图记为Y,计算二者的融合特征,计算公式为: 其中,F(X,Y)为融合特征, 表示逐元素相加, 表示逐元素相乘;

步骤S1‑3‑5:多次重复步骤S2‑3‑2至步骤S2‑3‑4,得到最后的解码特征图。

5.根据权利要求1所述的矿井辅助运输车辆无人驾驶的单目深度估计方法,其特征在于,在步骤S3中,将T0→final和深度图作为计算依据进行图像重建,得到由当前帧图像投影到上下多帧视角的投影图像的具体方法为:步骤S3‑1:给定来自两个视角的目标图像It和源图像Is,并预测目标图像的密集深度图Dt和从目标图像到源图像的相机相对位姿Tt→s;此时目标图像It的像素点pt与源图像Is对应‑1像素点存在投影关系,关系式proj(.)为:ps~KTt→sDt(pt)K pt;其中,K为相机参数矩阵;

步骤S3‑2:通过双线性重采样,将源图像Is扭曲为到目标视图的投影图像Is→t,完成图像重建,计算公式为:Is→t=Is

6.根据权利要求1所述的矿井辅助运输车辆无人驾驶的单目深度估计方法,其特征在于,在步骤S4中,计算光度重投影损失函数和次要损失函数,得到总损失的具体方法为:步骤S4‑1:结合图像结构相似性SSIM与L1范数构建出光度重投影损失,计算公式为:其中,α表示权重;

步骤S4‑2:计算边缘平滑度损失Lsmooth、曼哈顿法向约束损失Lnorm和共面约束损失Lplane;计算公式分别为:其中, 和 是

目标图像沿两个坐标轴的梯度, 是预测的视差平均归一化值;Nnorm是曼哈顿区域中的像素数, 表示预测的法线向量np与像素p的最佳相似法线向量 之间的余弦相似度; 表示曼哈顿区域; 表示平面区域;Nplane是平面区域中的像素数,Dp表示预测的像素p深度, 指示计算出的像素p共面深度;

步骤S4‑3:计算最终的总损失,计算公式为:L=Lphoto+μLsmooth+λLnorm+νLplane;其中,μ,λ和ν均为超参数。