1.一种视觉定位方法,其特征在于,包括:提取待定位图像的第一特征图像和第二特征图像;其中,所述第一特征图像包含局部特征信息,所述第二特征图像包含全局特征信息;
融合所述第一特征图像和所述第二特征图像,得到融合特征图像;
基于所述融合特征图像,检测得到所述待定位图像中的目标地标点;
基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在场景地图中的第二位置信息,得到所述待定位图像的位姿参数;其中,所述待定位图像是对预设场景拍摄得到的,所述场景地图是对所述预设场景进行三维建模得到的。
2.根据权利要求1所述的方法,其特征在于,还包括:基于注意力机制、多尺度特征提取网络中至少一者,对所述第一特征图像处理,得到所述第二特征图像。
3.根据权利要求2所述的方法,其特征在于,所述基于注意力机制、多尺度特征提取网络中至少一者,对所述第一特征图像处理,得到所述第二特征图像,包括:基于所述注意力机制对所述第一特征图像进行处理,得到第一全局图像,并将所述多尺度提取网络提取的多尺度特征图像进行融合,得到第二全局图像;
融合所述第一全局图像和所述第二全局图像,得到所述第二特征图像。
4.根据权利要求3所述的方法,其特征在于,所述第一全局图像和所述第二全局图像均为多通道图像;所述融合所述第一全局图像和所述第二全局图像,得到所述第二特征图像,包括:
将所述第一全局图像和所述第二全局图像进行通道混洗,得到第三全局图像;
对所述第三全局图像进行通道融合,得到所述第二特征图像。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述融合特征图像,检测得到所述待定位图像中的目标地标点,包括:利用地标检测模型处理所述融合特征图像,得到第一地标预测图像和第一方向预测图像;
对所述第一地标预测图像和所述第一方向预测图像进行分析,得到所述目标地标点;
其中,所述目标地标点为所述预设场景的若干地标点中的至少一个,所述若干地标点是从所述预设场景的场景地图中选择得到的,所述第一地标预测图像包括所述待定位图像中像素点的预测地标属性,所述第一方向预测图像包括所述待定位图像中像素点的第一方向属性,所述预测地标属性用于标识所述像素点对应的地标点,所述第一方向属性包括指向地标投影的第一方向信息,所述地标投影表示所述像素点对应的地标点在所述待定位图像中的投影位置。
6.根据权利要求5所述的方法,其特征在于,所述地标检测模型包括地标预测网络,所述利用地标检测模型处理所述融合特征图像,得到第一地标预测图像包括:利用所述地标预测网络对所述融合特征图像进行解码,得到第一特征预测图像;其中,所述第一特征预测图像包括所述待定位图像中像素点的第一特征表示;
对于每一所述像素点,基于局部敏感哈希处理所述像素点的第一特征表示,得到所述像素点的预测地标属性;
基于所述待定位图像中各个所述像素点的预测地标属性,得到所述第一地标预测图像。
7.根据权利要求6所述的方法,其特征在于,所述基于局部敏感哈希处理所述像素点的第一特征表示,得到所述像素点的预测地标属性,包括:基于所述局部敏感哈希映射所述像素点的第一特征表示,确定所述像素点所在的第一目标分区;其中,所述第一目标分区属于多个第一哈希分区,所述多个第一哈希分区由所述若干地标点的地标特征表示经所述局部敏感哈希处理得到,所述地标特征表示是在所述地标检测模型训练收敛之后得到的;
选取所述第一目标分区内的所述地标点,作为第一候选地标点;
基于所述像素点的第一特征表示分别与各个所述第一候选地标点的地标特征表示之间的相似度,得到所述像素点的预测地标属性。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述目标地标点是利用地标检测模型检测得到的,且所述目标地标点为所述预设场景的若干地标点中的至少一个,所述若干地标点是从所述预设场景的场景地图中选择得到的,所述若干地标点分别位于所述场景地图各个子区域的预设位置处,所述地标检测模型的训练步骤包括:分别确定所述子区域和所述地标点在样本图像的投影区域和投影位置;
基于所述投影区域和所述投影位置,确定所述样本图像中样本像素点的样本地标属性和样本方向属性;其中,所述样本地标属性用于标识所述样本像素点对应的样本地标点,且所述样本地标点为所述投影区域覆盖所述样本像素点的子区域所含的地标点,所述样本方向属性包括指向所述样本像素点对应的样本地标点的投影位置的样本方向信息;
分别基于所述样本地标属性和所述样本方向属性,得到所述样本图像的样本地标图像和样本方向图像;其中,所述样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性,所述样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性;
利用所述地标检测模型对所述样本图像进行预测,得到所述样本图像的第二特征预测图像和第二方向预测图像;其中,所述第二特征预测图像包括所述样本像素点的第二特征表示,所述第二方向预测图像包括所述样本像素点的第二方向属性,所述第二方向属性包括指向样本地标投影的第二方向信息,且所述样本地标投影表示所述样本地标点在所述样本图像中的投影位置;
基于所述样本地标图像和所述第二特征预测图像,得到第一损失,并基于所述样本方向图像和所述第二方向预测图像,得到第二损失;
基于所述第一损失和所述第二损失,优化所述地标检测模型的网络参数。
9.根据权利要求8所述的方法,其特征在于,所述基于所述样本地标图像和所述第二特征预测图像,得到第一损失,包括:获取各个所述地标点的待优化特征表示;
对于所述样本图像中所述样本像素点,将所述样本地标属性所标识的样本地标点的待优化特征表示作为所述样本像素点的正例特征表示,并基于局部敏感哈希对所述样本像素点的第二特征表示的处理结果,选择一个参考特征表示作为所述样本像素点的负例特征表示,以及基于所述第二特征表示与所述正例特征表示之间的第一相似度和所述第二特征表示与所述负例特征表示之间的第二相似度,得到子损失;其中,所述参考特征表示包括除所述正例特征表示之外的待优化特征表示;
基于所述样本图像中所述样本像素点的子损失,得到所述第一损失。
10.根据权利要求9所述的方法,其特征在于,所述基于局部敏感哈希对所述样本像素点的第二特征表示的处理结果,选择一个参考特征表示作为所述样本像素点的负例特征表示,包括:
基于所述局部敏感哈希映射所述样本像素点的第二特征表示,确定所述样本像素点所在的第二目标分区;其中,所述第二目标分区属于多个第二哈希分区,所述多个第二哈希分区由所述若干地标点的待优化特征表示经所述局部敏感哈希处理得到;
选取所述第二目标分区内的所述地标点,作为第二候选地标点;其中,所述第二候选地标点不包含所述样本像素点对应的样本地标点,所述处理结果包括所述第二候选地标点;
基于所述样本像素点的第二特征表示分别与各个所述第二候选地标点的待优化特征表示之间的相似度,得到所述样本像素点的负例特征表示。
11.根据权利要求8所述的方法,其特征在于,所述子区域是对所述场景地图的表面进行划分得到的;
和/或,所述预设位置包括所述子区域的中心位置;
和/或,各个所述子区域之间的面积差异低于预设阈值。
12.一种视觉定位装置,其特征在于,包括:特征提取模块,用于提取待定位图像的第一特征图像和第二特征图像;其中,所述第一特征图像包含局部特征信息,所述第二特征图像包含全局特征信息;
特征融合为模块,用于融合所述第一特征图像和所述第二特征图像,得到融合特征图像;
地标检测模块,用于基于所述融合特征图像,检测得到所述待定位图像中的目标地标点;
位姿确定模块,用于基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在场景地图中的第二位置信息,得到所述待定位图像的位姿参数,其中,所述待定位图像是对预设场景拍摄得到的,所述场景地图是对所述预设场景进行三维建模得到的。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至11任一项所述的视觉定位方法。
14.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至11任一项所述的视觉定位方法。