1.一种自监督单目深度估计方法,其特征是,包括:获取待估计图像,对待估计图像进行预处理;
将预处理后的待估计图像输入至自监督深度估计网络中,进行深度估计,输出深度图像;
所述自监督深度估计网络包括Transformer分支和卷积分支,所述Transformer分支为采用跳跃式连接的编码器-解码器结构,用于捕获图像的全局上下文信息;所述卷积分支为卷积编码层和矩形卷积模块,用于提取图像的局部上下文信息;所述卷积分支的输出特征与所述Transformer分支中倒数第二个解码层的输出特征拼接,再通过最后的解码层输出深度图像;
所述矩形卷积模块为金字塔结构,包括5×5卷积、深度可分离卷积和1×1卷积,每一卷积均采用条形卷积的形式,条形卷积增强对条带对象的分割,金字塔结构矩形卷积模块增强与Transformer分支特性的融合效果;
所述卷积分支中,将卷积编码层输出的局部特征输入矩形卷积模块中,通过5×5卷积聚合局部特征信息,再通过包括不同卷积通道的深度可分离卷积分别提取全局上下文信息,利用1×1卷积聚合每个卷积通道所提取的信息和聚合的局部特征信息,将最终的聚合输出作为注意权重,与输入的局部特征加权,得到最终输出;
其中,所述将最终的聚合输出作为注意权重,与输入的局部特征加权,得到最终输出具体公式为:
其中,G0表示输入ResNet-50的第一层特征,是逐元素矩阵乘法运算,DW-Conv表示逐深度卷积,Scalei(0,1,2,3)表示不同的分支,Scale0表示单位连接。
2.如权利要求1所述的自监督单目深度估计方法,其特征是,所述Transformer分支中,每层编码层包括多个Transformer块,每一Transformer块包括依次连接的第一归一化层、多头自注意力模块、第二归一化层和多层感知器模块。
3.如权利要求1所述的自监督单目深度估计方法,其特征是,所述预处理包括:对输入图像进行分割,分割为多个大小一致的图像块。
4.如权利要求1所述的自监督单目深度估计方法,其特征是,所述自监督深度估计网络还包括形状细化模块,所述形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块;
将解码层输出的深度图像输入至形状细化模块中,所述形状细化模块学习图像中相邻像素之间的亲和矩阵,将学习的亲和矩阵与像素深度逐像素关联,输出最终的深度图像。
5.一种自监督单目深度估计系统,基于如权利要求1-4任一所述的自监督单目深度估计方法,其特征是,包括:待估计图像获取模块,用于获取待估计图像,对待估计图像进行预处理;
深度估计模块,用于将预处理后的待估计图像输入至自监督深度估计网络中,进行深度估计,输出深度图像;
所述自监督深度估计网络包括Transformer分支和卷积分支,所述Transformer分支为采用跳跃式连接的编码器-解码器结构,用于捕获图像的全局上下文信息;所述卷积分支为卷积编码层和矩形卷积模块,用于提取图像的局部上下文信息;所述卷积分支的输出特征与所述Transformer分支中倒数第二个解码层的输出特征拼接,再通过最后的解码层输出深度图像。
6.如权利要求5所述的自监督单目深度估计系统,其特征是,所述矩形卷积模块为金字塔结构,包括5×5卷积、深度可分离卷积和1×1卷积,每一卷积均采用条形卷积的形式;
所述卷积分支中,将卷积编码层输出的局部特征输入矩形卷积模块中,通过5×5卷积聚合局部特征信息,再通过包括不同卷积通道的深度可分离卷积分别提取全局上下文信息,利用1×1卷积聚合每个卷积通道所提取的信息和聚合的局部特征信息,将最终的聚合输出作为注意权重,与输入的局部特征加权,得到最终输出。
7.如权利要求5所述的自监督单目深度估计系统,其特征是,所述自监督深度估计网络还包括形状细化模块,所述形状细化模块包括依次连接的深度可分离卷积、卷积层和多层感知器模块;
将解码层输出的深度图像输入至形状细化模块中,所述形状细化模块学习图像中相邻像素之间的亲和矩阵,将学习的亲和矩阵与像素深度逐像素关联,输出最终的深度图像。
8.一种电子设备,其特征是:包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成如权利要求1-4中任一项所述的一种自监督单目深度估计方法的步骤。
9.一种计算机可读存储介质,其特征是:用于存储计算机指令,所述计算机指令被处理器执行时,完成如权利要求1-4中任一项所述的一种自监督单目深度估计方法的步骤。