利索能及
我要发布
收藏
专利号: 2020100203711
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种自适应注意力指导机制的一般性目标检测方法,其特征在于:该方法包括以下步骤:步骤一,使用ResNet-101特征提取器作为目标检测模型的基本架构,对其卷积块进行修改,即对其中第N个卷积层的第M个模块的输出端进行交叉下采样操作,基于输入的待检测图像生成k个特征图,将提取出的特征图输入到第N个卷积层之后的网络进行降维和特征精细化;

步骤二,修改特征提取网络ResNet-101的最后一个卷积层作为目标检测模型的目标区域识别(SORR)模块,即从该卷积层输入端的特征图中选取正样本和负样本,根据样本所在特征图,通过卷积神经网络预测得到注意力得分图;

步骤三,将注意力得分图输入目标检测模型的注意力指导金字塔预测模块(APPK),所述预测模块包括T种不同尺寸的卷积核,呈金字塔结构;选择注意力得分图中得分值大于设定阈值的单元所对应的区域作为检测的推荐区域;利用金字塔结构的卷积核对推荐区域进行卷积,并将T种卷积核所得到的预测结果并置,采用非极大值抑制的方法,得到最终的预测结果;

步骤四,使用并交比(IoU)自适应损失函数对目标检测模型进行训练,模型的输入是原始图像,模型的输出是目标所属类别和相应的位置;使用训练后的目标检测模型检测出输入图像中的各目标所属类别和相应位置。

2.根据权利要求1所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤一,交叉下采样方法具体如下:首先分别定义两个步长为2的2×2采样器S1、S2及其初始矩阵S0:

其中Ax,y表示位于(x,y)的采样值,初始位置(x,y)为(0,0);

使用两个采样器分别沿着横向和纵向对输入图像经过第N个卷积层之前的网络提取后的特征图进行迭代采样,交叉下采样中每进行一次滑动采样即生成四个特征图,并且这四个特征图的大小是原特征图的1/4,将采样得到的特征图依次输入到一个1×1和3×3卷积神经网络中进行降维和特征精细化,并通过ReLU的激活函数,输出新的特征图。

3.根据权利要求1所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤二,所述卷积层的输入端为n×n的特征图,即n×n的注意力网格区域,每个单元包含一个激活特征向量,参数n由输入图片的尺寸和卷积层步长数决定,计算注意力网格区域的每个子单元的并交比(IoU)值,将其分类为正样本和负样本,其中正样本为目标物体的IoU值大于或者等于d的单元,负样本为目标物体的IoU值小于d的单元。

4.根据权利要求3所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述注意力网格区域的每个子单元样本分类表示如下:其中 为样本分类函数, 表示注意力网格区域的第i行j列子单元网格,

表示训练过程中数据集中图片的第k个标签,area()是面积计算函数,d是IoU阈值。

5.根据权利要求3或4所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤二,使用由两个连续1×1卷积层组成的卷积神经网络预测得到n×n的注意力得分图。

6.根据权利要求1-4任一所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤三,预测模块采用1×1、3×3和5×5这三种不同尺寸的卷积核,分别检测图像中的不同尺度目标物体;三种不同尺寸卷积核分别对应三种基本推荐区域形状,所述基本推荐区域形状包含五种长宽比: 不同尺寸目标的捕获使用不同尺寸的卷积核,1×1卷积核用于检测~322像素的目标,3×3卷积核用于检测~

962像素的目标,5×5卷积核用于检测~1602像素的目标;不同形状目标的捕获使用不同长宽比例的卷积核;

在APPK模块中,正负样本分类方法定义为:

其中 为样本分类函数, 是以注意力网格为中心的推荐区域,其中

(i,j)表示网格区域的坐标,m、n分别表示第m个推荐区域的形状和第n个长宽比, 为真值标签,e表示用于样本分类的IoU阈值。

7.根据权利要求1-4任一所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤四,所述自适应损失函数定义如下:其中{Pn}为训练样本集合,pos为正样本,neg为负样本, 是对多类别的预测, 是对背景的预测,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥

1]为0;权重因子e-IoU用于平衡介于负样本和正样本之间的训练损失函数。

8.根据权利要求7所述的一种自适应注意力指导机制的一般性目标检测方法,其特征在于:所述步骤四,对目标检测模型进行训练,方法如下:训练开始前,采用均值为0、标准差为0.01的高斯分布对目标检测模型的权重进行初始化;

训练的第一阶段,使用MS-COCO数据集对改进的ResNet-101网络进行训练,迭代次数设置为t1次,自动调节改进的ResNet-101网络权重以识别目标区域,并将目标损失函数添加到预测的注意力得分图中;所述目标损失函数定义为:其中{pi,j}是注意力网格区域的预测置信度, 是其相对应的标签,λ是一个类平衡超参数,Lobj是一个二分类损失函数,用于预测目标区域和背景;

训练的第二阶段,固定ResNet-101网络的权重,对预测模块的权重进行训练,迭代次数设置为t2次,使用一般性的损失函数:其中[u≥1]是指示函数,训练样本为正样本时其输出为1,否则为0; 为softmax分类损失函数,pn为样本类别预测值, 为样本类别标签;t0为样本位置预测值,为样本位置标签, 为鲁棒的L1位置回归损失函数,其定义为:其中(x,y)表示推荐区域的中心位置,t和w表示边界框的宽度和高度;

使用IoU自适应损失函数来进一步训练预测模块,所述自适应损失函数定义如下:其中 是多类预测得分, 是关于背景的置信度,当一个注意力网格区域的得分高于预先设定的阈值,则[u≥1]为1,否则[u≥1]就为0;在背景分类前引入权重因子e-IoU来平衡介于负样本和正样本之间的训练损失函数;

在训练的第二阶段迭代完成后,在一般性的损失函数表达式中使用IoU自适应损失函数 替代 并在一般性的损失函数后面加上目标损失函数Lobj({pi,j}),对目标检测模型进行第三次调参,迭代次数设置为t3次;

目标检测模型最后的损失函数为: