利索能及
我要发布
收藏
专利号: 2021108656733
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视觉定位方法,包括:获取室内图像;

对所述室内图像进行识别以获取所述室内图像的第一光学字符识别OCR信息,其中,所述第一OCR信息包括文本框内的文本信息和所述文本框内的图像特征点信息;

以所述文本信息为索引从图像数据库之中进行查询,以获取至少一个候选图像的第一图像信息;

根据所述图像特征点信息从所述至少一个候选图像的第一图像信息中获取目标图像的第二图像信息;以及

根据所述第二图像信息和所述图像特征点信息确定所述室内图像的目标位置信息。

2.根据权利要求1所述的方法,其中,所述对所述室内图像进行识别以获取所述室内图像的第一光学字符识别OCR信息,包括:获取图像识别模型;

将所述室内图像输入至所述图像识别模型;

通过所述图像识别模型对所述室内图像进行识别,以生成所述第一OCR信息。

3.根据权利要求1所述的方法,其中,所述图像特征点信息包括图像特征点位置信息和图像特征点特征向量,所述第二图像信息包括所述目标图像的第二OCR信息,所述根据所述图像特征点信息从所述至少一个候选图像的第一图像信息中获取目标图像的第二图像信息,包括:

将所述图像特征点特征向量分别与所述至少一个候选图像中每个所述候选图像对应的图像特征点特征向量进行匹配,以生成匹配结果;

根据所述匹配结果从所述至少一个候选图像的第一图像信息中获取所述目标图像的第二图像信息。

4.根据权利要求3所述的方法,其中,所述第二图像信息还包括所述目标图像的真实位姿,所述第二OCR信息包括所述文本框的平面参数,所述根据所述第二图像信息和所述图像特征点信息确定所述室内图像的目标位置信息,包括:根据所述真实位姿和所述平面参数,生成所述文本框内的图像特征点3D位置信息;

根据所述图像特征点3D位置信息和所述图像特征点位置信息,生成所述目标位置信息。

5.根据权利要求1所述的方法,其中,所述目标图像为多个,所述根据所述第二图像信息和所述图像特征点信息确定所述室内图像的目标位置信息,包括:分别根据多个所述目标图像的第二图像信息和所述图像特征点信息确定所述室内图像的多个初始位置信息;

对所述多个初始位置信息进行全变量优化,以生成所述目标位置信息。

6.一种视觉定位装置,包括:第一获取模块,用于获取室内图像;

识别模块,用于对所述室内图像进行识别以获取所述室内图像的第一光学字符识别OCR信息,其中,所述第一OCR信息包括文本框内的文本信息和所述文本框内的图像特征点信息;

第二获取模块,用于以所述文本信息为索引从图像数据库之中进行查询,以获取至少一个候选图像的第一图像信息;

第三获取模块,用于根据所述图像特征点信息从所述至少一个候选图像的第一图像信息中获取目标图像的第二图像信息;以及确定模块,用于根据所述第二图像信息和所述图像特征点信息确定所述室内图像的目标位置信息。

7.根据权利要求6所述的装置,其中,所述识别模块,具体用于:获取图像识别模型;

将所述室内图像输入至所述图像识别模型;

通过所述图像识别模型对所述室内图像进行识别,以生成所述第一OCR信息。

8.根据权利要求6所述的装置,其中,所述图像特征点信息包括图像特征点位置信息和图像特征点特征向量,所述第二图像信息包括所述目标图像的第二OCR信息,所述第三获取模块,具体用于:

将所述图像特征点特征向量分别与所述至少一个候选图像中每个所述候选图像对应的图像特征点特征向量进行匹配,以生成匹配结果;

根据所述匹配结果从所述至少一个候选图像的第一图像信息中获取所述目标图像的第二图像信息。

9.根据权利要求8所述的装置,其中,所述第二图像信息还包括所述目标图像的真实位姿,所述第二OCR信息包括所述文本框的平面参数,所述确定模块,具体用于:根据所述真实位姿和所述平面参数,生成所述文本框内的图像特征点3D位置信息;

根据所述图像特征点3D位置信息和所述图像特征点位置信息,生成所述目标位置信息。

10.根据权利要求6所述的装置,其中,所述目标图像为多个,所述确定模块,具体用于:分别根据多个所述目标图像的第二图像信息和所述图像特征点信息确定所述室内图像的多个初始位置信息;

对所述多个初始位置信息进行全变量优化,以生成所述目标位置信息。

11.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑5中任一项所述的视觉定位方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑5中任一项所述的视觉定位方法。

13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑5中任一项所述的视觉定位方法。