利索能及
我要发布
收藏
专利号: 2020115024964
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-02-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像处理方法,包括:

从目标图像中提取目标类别的待处理对象;

确定目标场景图像所包括的一个或多个子场景区域及其场景类别;

基于对象类别与场景类别之间的预设关系,从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域;以及将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中,生成融合图像,包括:基于相应的至少一个子场景区域,确定所述待处理对象在所述目标场景图像中的融合位置;

基于所述融合位置执行第一操作或第二操作,确定所述待处理对象在所述目标场景图像中的融合尺寸;

基于所述融合尺寸,对所提取的所述待处理对象的图像进行变换处理,以适配所述目标场景图像;以及基于所述融合位置,将经过变换处理后的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中,其中,所述第一操作包括:

将所述目标场景图像输入深度预测模型,获取所述深度预测模型输出的所述目标场景图像中所述融合位置的深度信息;以及基于所述深度信息,确定所述待处理对象在所述目标场景图像的所述融合尺寸;

所述第二操作包括:

基于所述目标场景图像中的投影关系,确定所述目标场景图像中的所述融合位置的尺度信息;以及基于所述尺度信息,确定所述待处理对象相对于所述场景图像的所述融合尺寸。

2.如权利要求1所述的图像处理方法,其中,所述从目标图像中提取目标类别的待处理对象包括:将所述目标图像输入目标检测模型,获取所述目标检测模型输出的包围所述待处理对象的边界框;以及基于所述边界框,对所述目标图像进行抠图处理,以得到所述待处理对象的图像。

3.如权利要求2所述的图像处理方法,其中,所述基于所述边界框,对所述目标图像进行抠图处理以得到所述待处理对象的图像包括:基于所述边界框,利用边缘提取算法提取所述待处理对象的边缘特征;以及基于所述边缘特征对所述目标图像进行抠图处理,以得到所述待处理对象的图像。

4.如权利要求1所述的图像处理方法,其中,所述生成融合图像包括:对所提取的所述待处理对象的图像进行多次随机数据增强处理,得到多个待融合图像;以及将多个所述待融合图像中的每一个融合到相应的至少一个子场景区域中。

5.如权利要求4所述的图像处理方法,其中,所述随机数据增强处理包括翻转、旋转、缩放、裁剪、平移、插值和噪声中的至少一种。

6.如权利要求1所述的图像处理方法,其中,利用语义分割模型来确定目标场景图像所包括的一个或多个子场景区域及其场景类别。

7.一种神经网络的训练方法,包括:

获取多个样本图像,并在每一个样本图像中标记包围所包括的样本对象的真实边界框及其真实对象类别,以得到初始样本图像集;

从初始样本图像集中获取包括目标类别的待处理对象的目标样本图像;

利用权利要求1‑6中任一项所述的图像处理方法将所述待处理对象融合到一个或多个目标场景图像中,得到所述待处理对象相应的一个或多个融合图像;

将所述一个或多个融合图像加入所述初始样本图像集中,并在每一个所述融合图像中标记包围所述待处理对象的真实边界框及其真实对象类别,以得到第一样本图像集;以及利用所述第一样本图像集对所述神经网络进行训练。

8.如权利要求7所述的训练方法,其中,所述训练方法还包括:获取多个测试图像,所述测试图像包括测试对象,并标记所述测试对象的真实对象类别;

在所述神经网络训练完成后,针对所述多个测试图像中的每一个测试图像,将所述测试图像输入所述神经网络,获取所述神经网络输出的包围所述测试图像中的测试对象的预测边界框以及预测对象类别及其预测类别置信度;

基于所述多个测试图像中所有测试图像的真实对象类别和所述预测对象类别,生成混淆矩阵;

基于所述混淆矩阵,确定第一对象类别和第二对象类别,以及修正阈值;以及在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大的情况下,基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值,确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。

9.如权利要求8所述的训练方法,其中,所述第一对象类别为目标类别,其中,在某一测试图像的预测结果中第一对象类别和第二对象类别两者的预测类别置信度最大并且第一对象类别的预测类别置信度小于第二对象类别两者的预测类别置信度的情况下,基于第一对象类别的预测类别置信度、第二对象类别的预测类别置信度以及所述修正阈值,确定该测试图像中的测试对象的类别为第一对象类别和第二对象类别两者中的其中之一。

10.一种目标检测方法,包括:

获取待检测图像;以及

将所述待检测图像输入使用权利要求7‑9中任一项所述的训练方法得到的神经网络,获取所述神经网络输出的所述待检测图像的目标检测结果。

11.一种图像处理装置,包括:

提取单元,被配置用于从目标图像中提取目标类别的待处理对象;

第一确定单元,被配置用于确定目标场景图像所包括的一个或多个子场景区域及其场景类别;

第二确定单元,被配置用于基于对象类别与场景类别之间的预设关系,从所述目标场景图像所包括的一个或多个子场景区域中确定所述待处理对象相应的至少一个子场景区域;以及融合单元,被配置用于将所提取的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中,生成融合图像,包括:基于相应的至少一个子场景区域,确定所述待处理对象在所述目标场景图像中的融合位置;

基于所述融合位置执行第一操作或第二操作,确定所述待处理对象在所述目标场景图像中的融合尺寸;

基于所述融合尺寸,对所提取的所述待处理对象的图像进行变换处理,以适配所述目标场景图像;以及基于所述融合位置,将经过变换处理后的所述待处理对象的图像融合到所述目标场景图像中相应的至少一个子场景区域中,其中,所述第一操作包括:

将所述目标场景图像输入深度预测模型,获取所述深度预测模型输出的所述目标场景图像中所述融合位置的深度信息;以及基于所述深度信息,确定所述待处理对象在所述目标场景图像的所述融合尺寸;

所述第二操作包括:

基于所述目标场景图像中的投影关系,确定所述目标场景图像中的所述融合位置的尺度信息;以及基于所述尺度信息,确定所述待处理对象相对于所述场景图像的所述融合尺寸。

12.一种目标检测装置,包括:

获取单元,被配置用于获取待检测图像;以及

使用权利要求11的训练装置得到的神经网络,被配置用于接收所述待检测图像,并对所述待检测图像进行处理以输出所述待检测图像的目标检测结果。

13.一种计算机设备,包括:

存储器、处理器以及存储在所述存储器上的计算机程序,其中,所述处理器被配置为执行所述计算机程序以实现权利要求1‑10中任一项所述的方法的步骤。

14.一种存储程序的计算机可读存储介质,所述程序包括指令,所述指令在由电子设备的处理器执行时,致使所述电子设备执行根据权利要求1‑10中任一项所述的方法。