利索能及
我要发布
收藏
专利号: 2024112103676
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种单目图像深度估计方法,其特征是,包括:

获取待估计的单目图像并预处理;

将预处理过的图像输入预先训练的初步深度估计网络,获得图像初步深度估计结果;

将所述初步深度估计结果输入预先训练的迭代优化网络,获得最终的单目图像深度估计结果;

所述初步深度估计网络包括编码器、解码器和回归头;

所述编码器包括若干个依次连接的编码层,所述解码器包含若干个依次连接的解码层,各所述编码层沿编码顺序方向与各解码层沿解码顺序反方向一一对应;所述解码层采用三元组交叉注意力TCA模块,所述三元组交叉注意力TCA模块包括窗口注意力WCA模块、跨维度注意力CDA模块、相关性注意力REA模块和特征块选择融合FBSF模块;

所述窗口注意力WCA模块用于对输入的编码特征和解码特征计算注意力,输出窗口注意力特征;

所述跨维度注意力CDA模块用于对输入的所述解码特征和所述窗口注意力特征计算注意力,输出跨维度注意力特征;

所述相关性注意力REA模块用于对所述窗口注意力特征进行窗口相关性特征提取并计算注意力,输出相关性注意力特征;

所述特征块选择融合FBSF模块对所述窗口注意力特征、所述跨维度注意力特征和所述相关性注意力特征融合,生成本解码层的输出特征;

最后一个解码层的输出为最终解码特征;所述编码特征为本解码层所对应编码层的输出特征;若本解码层为第一个解码层,则输入本解码层的解码特征为每个所述编码层的输出特征融合后的输出特征,若本解码层不为第一个解码层,则输入本解码层的解码特征为前一个解码层的输出特征;

所述回归头,用于根据所述最终解码特征生成所述初步深度估计结果。

2.根据权利要求1所述的单目图像深度估计方法,其特征是,所述窗口注意力WCA模块对输入的编码特征和解码特征计算注意力包括:S11:将所述预处理过的图像拆分成窗口;

S12:在各个窗口,对所述编码特征计算Q向量 和K向量 ,对所述解码特征计算V向量 ,其中Q向量、K向量和V向量分别为对应特征经过线性变化得到的Quary矩阵、Key矩阵和Value矩阵;

S13:根据各个窗口计算的Q向量 、K向量 和V向量 ,计算窗口注意力输出为窗口注意力特征,公式为:,

其中, 表示窗口注意力特征, 表示归一化函数,b为相对位置偏差矩阵,d表示Q向量 和K向量 的向量维度的比值,b中每个元素 表示位置m和位置n之间的相对位置嵌入,其中m表示Q向量 中的元素位置,n表示K向量 中的元素位置。

3.根据权利要求1所述的单目图像深度估计方法,其特征是,所述初步深度估计网络还包括金字塔池化PPM模块,金字塔池化PPM模块接收每个所述编码层的输出特征,融合处理得到输入第一个解码层的所述解码特征。

4.根据权利要求1所述的单目图像深度估计方法,其特征是,所述跨维度注意力CDA模块包括全局向量生成器GVG,所述全局向量生成器GVG用于接收所述解码特征处理生成全局感知向量,过程为:S211:将所述解码特征的维度的大小压缩成与窗口维度相同,所述解码特征的维度和窗口维度的大小分别为解码特征分辨率和窗口分辨率;

S212:将压缩的解码特征复制恢复成原所述解码特征的维度,边缘用mask补充;

S213:从恢复后的解码特征各个窗口大小的压缩解码特征内提取V向量作为全局感知向量。

5.根据权利要求4所述的单目图像深度估计方法,其特征是,所述跨维度注意力CDA模块用于对输入的所述解码特征和所述窗口注意力特征计算注意力包括:S21:所述全局向量生成器GVG生成所述全局感知向量,所述全局感知向量作为V向量,对所述窗口注意力特征计算得到Q向量和K向量;

S22:对Q向量、K向量和V向量计算注意力,输出所述跨维度注意力特征。

6.根据权利要求1所述的单目图像深度估计方法,其特征是,所述相关性注意力REA模块用于对所述窗口注意力特征进行窗口相关性特征提取并计算注意力包括:S31:将所述窗口注意力特征拆分为不同的窗口,每个窗口经过线性变换,得到Q向量、K向量 和V向量 ;

S32:将Q向量 和K向量 的每个窗口内取平均作为该窗口的标志;

S33:分别提取所述Q向量 和K向量 各个窗口的标志对应生成中间Q向量矩阵 与中间K向量矩阵 ;

S34:将中间Q向量矩阵 与中间K向量矩阵 的转置矩阵相乘,生成表示窗口之间亲和关系的邻接矩阵;

S35:基于所述邻接矩阵构建索引函数,得到每个窗口与哪k个窗口相关性最高,k是小于窗口数量的非零自然数;

S36:分别对所述K向量 和V向量 使用所述索引函数进行索引并使用收集函数收集对应的索引结果,生成包含窗口相关性信息的K向量 和包含窗口相关性信息的V向量 ;

S37:对Q向量 、包含窗口相关性信息的K向量 和包含窗口相关性信息的V向量 计算注意力,输出相关性注意力特征。

7.根据权利要求1所述的单目图像深度估计方法,其特征是,所述特征块选择融合FBSF模块对所述窗口注意力特征、所述跨维度注意力特征和所述相关性注意力特征融合,包括:S41:将所述跨维度注意力特征和所述相关性注意力特征之和设为第一特征Gu;

S42:将所述第一特征Gu和所述窗口注意力特征沿着通道维度进行拼接,形成第二特征Bu;

S43:将所述第二特征Bu通过切片操作分割成特征块;

S44:将被分割的特征块通过特征块选择操作间隔选中,提取各个被选中特征块里的最大值生成第三特征Bu';

S45:对所述第三特征Bu'应用卷积操作生成两个通道,对每个通道应用sigmoid函数生成一个双通道注意图,将所述第一特征Gu和所述窗口注意力特征分别与该双通道注意图相乘生成第四特征Gu’和第五特征Lu’;

S46:将所述第四特征Gu’和第五特征Lu’相加生成本解码层的输出特征。

8.根据权利要求1所述的单目图像深度估计方法,其特征是,所述迭代优化网络包括基于门控循环单元GRU的迭代优化器,所述迭代优化网络基于初步深度估计结果获得最终的单目图像深度估计结果,包括:S51:计算不确定图 与第t阶段的深度图 之间的差值表示t阶段的差异图 ,公式为: =  ,

其中,t=1时, 为初始的深度图,其值为所述初步深度估计结果,所述不确定图 由所述最终解码特征经过所述回归头生成;

S52:将第t阶段的深度图 、不确定图 、第t阶段的差异图 、第t阶段的隐藏特征和初始的隐藏特征 输入门控循环单元GRU生成第t+1阶段的隐藏特征 ,具体计算为:,

其中, 为第一个编码层的输出特征;

S53:将所述第t+1阶段的隐藏特征 输入更新模块△生成的计算结果叠加第t阶段的深度图 ,输出第t+1阶段深度图 ,具体计算为: =  +△( ),

其中,更新模块△为Conv‑ReLU组合操作,

所述迭代优化器的迭代过程为:设定迭代次数为x,x为非零自然数,t的初始值为1顺序循环执行S51‑S53步骤至t等于x, 为所述最终的单目图像深度估计结果。

9.根据权利要求1所述的单目图像深度估计方法,其特征是,训练所述初步深度估计网络和所述迭代优化网络包括训练损失函数,采用的损失函数包括不确定性损失和深度图损失;

计算所述不确定性损失包括:

S61:用拉普拉斯分布的概率密度函数来构建第i个像素点的不确定性真值 :,

其中, 为数据集提供的第i个像素点的图像深度真值, 为第i个像素点的图像深度预测值,所述图像深度预测值为所述迭代优化网络的各阶段的深度图,T表示控制误差容忍度的系数,exp为e为底数的指数函数;

S62:计算不确定性损失 :

其中, 为第i个像素点的不确定图的不确定性值,表示第i个像素点的图像不确定性预测值, 为i个绝对值求和运算;

计算所述深度图损失包括:

S71:计算图像第i个像素点深度预测值 与深度真值 之间e为底的对数函数差:,

S72:计算深度图损失SILog如下:

其中y为像素点总数, 是方差最小化因子, 是尺度常数;

总体损失 为SILog计算结果 与不确定性损失 之和:。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1 9所述的任一方法。

~