1.一种基于自适应令牌聚合的单目深度估计方法,其特征在于,包括:
获取待估计图像;
将获取的待估计图像进行图像分割,得到多个大小一致的图像块;
将所得到的图像块利用深度估计网络进行估计,得到估计结果;
其中,所述深度估计网络为跳跃连接的编码器‑解码器结构,在编码器中,通过矩形卷积引导大小一致的图像块聚焦于场景中的物体,所述编码器包括Transformer分支和卷积分支,所述Transformer分支用于对预处理后的待估计图像提取全局上下文信息,得到全局特征;所述卷积分支用于对预处理后的待估计图像提取局部上下信息,得到局部特征;所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强,得到增强的全局特征和增强的局部特征;利用所述解码器对增强的全局特征和增强的局部特征解码估计,得到估计结果。
2.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,对获取待估计图像进行分割,具体包括:通过分区算子对待估计图像进行分割,分割得到多个大小一致的图像块。
3.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述Transformer分支包括多个依次连接的下采样层,每个下采样层包括依次包括补丁合并层和多个Transformer块,每个Transformer块包括依次连接的第一归一化层、多头自主意模块、第二归一化层和多层感知器模块。
4.如权利要求3所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述卷积分支包括卷积编码器和卷积特征增强模块,将卷积分支的卷积编码层的输出特征利用矩形卷积模块进行特征提取,得到矩形卷积聚类特征,将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并。
5.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,将所得到的矩形卷积聚类特征作为先验知识在所述补丁合并层中,引导令牌的聚类和合并,具体为:给定初始分割标记和矩形卷积聚类特征中心标记,对于每个标记计算平均像素距离;
根据所计算的像素距离,将相似令牌特征分到同一聚类中;
利用注意力机制计算注意力分数进行令牌特征的合并。
6.如权利要求4所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述卷积特征增强模块包括并列的第一卷积层和第二卷积层,所述第一卷积层的输出特征分别经过第三卷积层和第四卷积层后进行特征相乘操作,将相乘后的结果再经过第五卷积层进行特征提取,所述第五卷积层的输出结果与所述第二卷积层的输出经过第六卷积层后的输出结果进行特征融合,将融合后的结果与所述卷积特征增强模块的输入再次特征融合,得到所述卷积分支的输出结果。
7.如权利要求1所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强,得到增强的全局特征和增强的局部特征,具体操作为:所述全局特征和所述局部特征分别经过池化得到第一全局特征与第一局部特征;
将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征。
8.如权利要求7所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,将所述第一全局特征和所述第一局部特征经过通道注意和跨图形信息交互得到增强的全局特征和增强的局部特征,具体为:所述第一全局特征通过特征映射得到查询值与价值;
所述第一局部特征通过特征映射得到键值与价值;
将所述第一全局特征的查询值与所述第一局部特征的键值,计算交叉注意力,建模亲和力矩阵;
将所述亲和力矩阵分别与所述第一全局特征的价值和所述第一局部特征的价值进行矩阵乘法,分别得到特征交互后的全局特征和特征交互后的局部特征;
将所得到的特征交互后的全局特征和特征交互后的局部特征,分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法,得到增强的全局特征和增强的局部特征。
9.如权利要求8所述的一种基于自适应令牌聚合的单目深度估计方法,其特征在于,将所得到的特征交互后的全局特征和特征交互后的局部特征,分别与经过通道注意的所述全局特征和所述局部特征进行矩阵乘法,得到增强的全局特征和增强的局部特征,具体为:,
,
其中,reshape函数表示向量扩展操作, 表示哈达玛乘积运算,Pooling表示池化操作,MLP表示多层感知器模块, 为全局特征, 为局部特征, 为增强的全局特征, 为增强的局部特征, 为特征交互后的局部特征, 为特征交互后的全局特征。
10.一种基于自适应令牌聚合的单目深度估计系统,其特征在于,包括:
获取模块:获取待估计图像;
预处理模块:将获取的待估计图像进行图像分割,得到多个大小一致的图像块;
估计模块:将所得到的图像块利用深度估计网络进行估计,得到估计结果;
其中,所述深度估计网络为跳跃连接的编码器‑解码器结构,在编码器中,通过矩形卷积引导大小一致的图像块聚焦于场景中的物体,所述编码器包括Transformer分支和卷积分支,所述Transformer分支用于对预处理后的待估计图像提取全局上下文信息,得到全局特征;所述卷积分支用于对预处理后的待估计图像提取局部上下信息,得到局部特征;所述Transformer分支输出的全局特征和所述卷积分支输出的局部特征进行交互增强,得到增强的全局特征和增强的局部特征;利用所述解码器对增强的全局特征和增强的局部特征解码估计,得到估计结果。