1.一种模型训练方法,包括:
将单目视频中相邻两图像帧输入至位姿估计模型,得到所述相邻两图像帧中第一图像帧到第二图像帧的位姿变换信息,以及将所述第一图像帧输入至深度估计模型,得到所述第一图像帧的深度图;
根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的像素特征和描述特征,构建所述第二图像帧的重构图;其中,所述描述特征包括全局描述特征和/或局部描述特征;
根据所述第二图像帧和所述重构图,对所述位姿估计模型和所述深度估计模型进行联合训练。
2.根据权利要求1所述的方法,其中,所述根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的像素特征和描述特征,构建所述第二图像帧的重构图,包括:根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的像素特征,构建所述第二图像帧的第一重构图;
根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的描述特征,构建所述第二图像帧的第二重构图。
3.根据权利要求2所述的方法,其中,所述根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的描述特征,构建所述第二图像帧的第二重构图,包括:根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的全局描述特征,构建所述第二重构图中的第一子图;和/或,根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的局部描述特征,构建所述第二重构图中的第二子图。
4.根据权利要求2所述的方法,其中,所述根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的描述特征,构建所述第二图像帧的第二重构图,包括:对所述第一图像帧中像素点的全局描述特征和所述局部描述特征进行融合,得到融合特征;
根据相机内参、所述位姿变换信息和所述深度图,以及融合特征,构建所述第二图像帧的第二重构图。
5.根据权利要求3所述的方法,其中,所述根据所述第二图像帧和所述重构图,对所述位姿估计模型和所述深度估计模型进行联合训练,包括:根据应用场景信息,对所述第二图像帧和所述第一子图之间的第二相似度差异,以及第二图像帧和所述第二子图之间的第三相似度差异进行更新;
根据所述第二图像帧和所述第一重构图之间的第一相似度差异,更新后的第二相似度差异,以及更新后的第三相似度差异,确定训练损失;
采用所述训练损失,对所述位姿估计模型和所述深度估计模型进行联合训练。
6.根据权利要求1所述的方法,还包括:
对原始视频中的移动物体进行删除,得到所述单目视频。
7.一种图像处理方法,包括:
获取目标图像帧;
将所述目标图像帧输入至训练后的深度估计模型,得到所述目标图像帧的深度图;
其中,所述深度估计模型是通过权利要求1‑6中任一所述的模型训练方法训练得到。
8.一种模型训练装置,包括:
位姿深度信息确定模块,用于将单目视频中相邻两图像帧输入至位姿估计模型,得到所述相邻两图像帧中第一图像帧到第二图像帧的位姿变换信息,以及将所述第一图像帧输入至深度估计模型,得到所述第一图像帧的深度图;
重构图确定模块,用于根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的像素特征和描述特征,构建所述第二图像帧的重构图;其中,所述描述特征包括全局描述特征和/或局部描述特征;
联合训练模块,用于根据所述第二图像帧和所述重构图,对所述位姿估计模型和所述深度估计模型进行联合训练。
9.根据权利要求8所述的装置,其中,所述重构图确定模块包括:第一重构图确定单元,用于根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的像素特征,构建所述第二图像帧的第一重构图;
第二重构图确定单元,用于根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的描述特征,构建所述第二图像帧的第二重构图。
10.根据权利要求9所述的装置,其中,所述第二重构图确定单元具体用于:根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的全局描述特征,构建所述第二重构图中的第一子图;和/或,根据相机内参、所述位姿变换信息和所述深度图,以及所述第一图像帧中像素点的局部描述特征,构建所述第二重构图中的第二子图。
11.根据权利要求9所述的装置,其中,所述第二重构图确定单元还具体用于:对所述第一图像帧中像素点的全局描述特征和所述局部描述特征进行融合,得到融合特征;
根据相机内参、所述位姿变换信息和所述深度图,以及融合特征,构建所述第二图像帧的第二重构图。
12.根据权利要求10所述的装置,其中,所述联合训练模块具体用于:根据应用场景信息,对所述第二图像帧和所述第一子图之间的第二相似度差异,以及第二图像帧和所述第二子图之间的第三相似度差异进行更新;
根据所述第二图像帧和所述第一重构图之间的第一相似度差异,更新后的第二相似度差异,以及更新后的第三相似度差异,确定训练损失;
采用所述训练损失,对所述位姿估计模型和所述深度估计模型进行联合训练。
13.根据权利要求8所述的装置,还包括:
单目视频确定模块,用于对原始视频中的移动物体进行删除,得到所述单目视频。
14.一种图像处理装置,包括:
目标图像帧获取模块,用于获取目标图像帧;
深度图确定模块,用于将所述目标图像帧输入至训练后的深度估计模型,得到所述目标图像帧的深度图;
其中,所述深度估计模型是通过权利要求1‑6中任一所述的模型训练方法训练得到。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的模型训练方法,和/或权利要求7所述的图像处理方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1‑6中任一项所述的模型训练方法,和/或权利要求7所述的图像处理方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑6中任一项所述的模型训练方法,和/或权利要求7所述的图像处理方法。