买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种结合目标检测的小目标语义分割方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种结合目标检测的小目标语义分割方法

￥26800

专利号： 2018107066898

申请人：南京师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种结合目标检测的小目标语义分割方法，其特征在于，包括以下步骤：

(1)搭建DeepLab-Attention语义分割网络，通过数据集训练该网络得到整体语义分割模型；

(2)根据数据集提供的实例边界标注文件，制作小目标检测数据集；根据数据集提供的像素级真实标记图，裁剪小目标图像块，制作小目标语义分割数据集；

(3)通过步骤(2)得到的小目标检测数据集训练基于YOLO v2的小目标检测网络；

(4)设计一个小目标语义分割网络，利用步骤(2)得到的小目标语义分割数据集训练该网络，并将步骤(3)得到的小目标检测网络所预测得到的小目标类别作为先验信息输入网络中辅助学习，得到小目标语义分割模型；

(5)在测试阶段，分别将测试图像作为上述整体语义分割模型和小目标检测网络的输入，得到整幅图像的分割结果和图像存在的小目标边界框，并通过小目标语义分割模型得到的小目标分割结果对整幅图像的分割结果进行修正。

2.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，在步骤(1)中，所述DeepLab-Attention语义分割网络为结合多尺度输入的DeepLab网络模型，每个基于DeepLab的神经网络得到对应尺度图像的特征评分图后，通过Attention模型学习得到的权重进行融合，获取最终的分割评分图。

3.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，步骤(2)的具体步骤如下：(21)对于训练集中每一副图像，数据集都有一副对应的真实语义分割图和一个包含了图像中所有目标边界框信息的标注文件，结合这两个文件，计算每个目标下所包含的像素点个数；

(22)设定一个阈值若目标内像素点个数大于则将该目标实例从目标边界框的标注文件中移除，即只保留小目标的边界框信息，对训练集中所有图像做上述操作即得到小目标检测数据集；若目标内像素点个数小于等于则根据该目标的边界框分别裁剪原始图像和真实分割图，分配其ID并将裁剪后的图像和分割图分别保存到本地两个文件夹，文件名即为分配的ID，对训练集中所有图像做上述操作即得到小目标语义分割数据集。

4.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，在步骤(4)中，利用小目标语义分割数据集训练小目标语义分割网络时，利用跳层连接的思想，在网络的深层特征图中，除了结合先验信息外，还结合了网络浅层特征图，使得深层网络在包含了语义信息的基础上同时具有边缘检测的能力。

5.根据权利要求4所述结合目标检测的小目标语义分割方法，其特征在于，步骤(4)的具体步骤如下：(41)首先需要对数据集所有图像进行预处理，预处理流程包括：图像零均值化、维度转换、矩阵升维；选择HDF5Data层作为小目标语义分割网络的输入层，将预处理后的输入图像、先验类别矩阵和真实分割图作为输入数据存储为HDF5文件格式；

(42)基于ResNet101网络进行微调，在该网络最后一层后级联一个输出通道数为512的卷积层，并与浅层特征、类别先验矩阵融合；各层网络参数初始化方式：ResNet101网络层直接通过预训练的参数赋值，最后三个卷积层参数初始化方式为高斯随机初始化；

(43)学习率策略选择Caffe框架中的poly策略，即学习率呈多项式的方式衰减，各层的学习率遵循微调的准则，即微调参数学习率较小，需随机初始化的参数学习率相对较大；最终通过SGD优化算法以0.9的动量来训练小目标语义分割网络。

6.根据权利要求1所述结合目标检测的小目标语义分割方法，其特征在于，步骤(5)的具体步骤如下：(51)对于一副测试图像，利用步骤(1)训练好的整体语义分割模型得到该幅图像的整体语义分割图；同时，利用步骤(3)训练好的小目标检测网络，检测该幅图像中是否包含小目标；

(52)如果该图像中不包含小目标，那么整体语义分割模型得到的分割结果即为最终测试图像的分割结果；如果该图像中包含小目标，则根据检测的边界框对小目标进行裁剪，将裁剪后的图像与检测得到的类别作为步骤(4)训练好的小目标语义分割模型的输入，得到小目标分割结果，并利用小目标分割结果对整体语义分割图对应的局部区域进行修正。

7.根据权利要求6所述结合目标检测的小目标语义分割方法，其特征在于，利用小目标分割结果对整体语义分割图对应的局部区域进行修正的方法如下：设小目标图像块分割图为S，整体语义分割图为M，对于S中每一个像素标记，若该标记为非背景类别，且该像素点标记与M中相应位置标记不一致，则利用S中的标记替换M中对应位置的标记。