买专利、卖专利、专利购买、专利交易、专利出售、高企申报-图像金字塔特征指导的多尺度目标检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

图像金字塔特征指导的多尺度目标检测方法

￥31200

专利号： 2022101856767

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种图像金字塔特征指导的多尺度目标检测方法，其特征在于，包括步骤如下：S1，以彩色图像作为网络输入，以基于ResNet‑101主干网络的FPN作为目标检测的框架，采用排序下采样方法提取图像特征；

S2，以步骤S1中的同一幅彩色图像作为输入，采用构建的双瓶颈子卷积网络提取图像金字塔中每层级的位置信息和细节特征；构建双瓶颈子卷积网络的过程如下：S21，定义双瓶颈子卷积网络的输入为：

* *

其中，表示高度为H、宽度为W的图像，该图像同时是目标检测模型的输入图像；i为图像金字塔和主干网络的层级索引；

S22，将图像金字塔中的第i层图像输入双瓶颈子卷积网络，通过一个5×5卷积核和一个3×3卷积核提取图像表层的边缘特征；

S23，将被提取的边缘特征输入到具有2个瓶颈结构的残差网络单元中提取细节特征，使用带有1×1卷积核的侧边连接，将准确定位的边缘信息传输给提取的纹理细节特征；

所述瓶颈结构由2个分别用于特征图通道降维与升维的1×1卷积核和2个用于学习浅层特征的3×3卷积核构成；

S24，得到与对应主干网络层级尺度相同的特征图，为残差网络单元的输出；

S25，以不同尺度的图像作为输入，定义双瓶颈子卷积网络的输出为：其中，表示图像金字塔第i层图像被提取的特征；表示图像金字塔中所有层级图像被提取的特征的集合；

S3，将步骤S2中提取的每层级的图像特征和主干网络对应的深层特征输入到构建的分层式特征融合模块中，完成高分辨率、弱语义特征与低分辨率、强语义特征的融合；

S4，引入Focal loss重构损失函数，对多任务进行训练，完成目标检测。

2.根据权利要求1所述的图像金字塔特征指导的多尺度目标检测方法，其特征在于，所述步骤S1中，所述排序下采样方法的实现过程如下：S11，在卷积神经网络的特征采样层的特征图上，滑动一个设定步长的滑窗，将滑窗内数值按升序排序，依次提取该滑窗内的四个值，生成四个新特征图；每个新特征图的宽度和高度都是原特征图的一半，则有排序下采样方法的输出为：其中，表示卷积神经网络每个采样层的特征图，W、H和D分别表示特征图的宽度、高度与通道数，l是卷积神经网络采样层的层级索引；Mj(·)表示提取滑窗内第j个值的过程，每个滑窗内被依次提取四个值；表示第l个下采样层中第j个输出的新特征图，每个下采样层生成四个新特征图；

S12，将四个新特征图并置，然后输入到小型卷积网络进行特征精修和通道调整；将输′ ′ ′出的最终特征图作为主干网络下一层的输入，其中，W 、H和D分别表示最终特征图的宽度、高度与通道数。

3.根据权利要求1所述的图像金字塔特征指导的多尺度目标检测方法，其特征在于，步骤S3中，所述分层式特征融合模块采用基于逐元素相加的特征融合模块；定义逐元素相加的输出为：其中，和分别表示两个3×3卷积单元，用作特征图的参数化特征映射，为1×1卷积单元，用作特征图的线性变换；BN[·]为卷积特征的批量归一化操作；T(·)表示通道维数双线性插值操作，用作调整两种不同类型特征的通道维度；h(·)与g(·)分别是双瓶颈子卷积网络的输出特征图与主干网络的特征图，i为图像金字塔与主干网络的层级索引；

I0与Ii分别表示图像金字塔中的原始图像和第i层的图像。

4.根据权利要求1所述的图像金字塔特征指导的多尺度目标检测方法，其特征在于，步骤S4中，Focal loss函数如下：*

其中，p与p分别为样本预测值和样本真值；αt∈(0,1)是为类1引入的一个权重因子，1‑γαt是为类‑1引入一个权重因子；(1‑p) 是调制系数；

位置回归损失项表示为：

其中，Lreg(t,t)由平滑的L1损失表示；t＝{x,y,w,h}表示样本预测的边界框位置信息，*其中，{x,y}表示边界框的中心坐标，{w,h}表示边界框的宽和高；t为t的样本标签；

目标检测损失函数表示为：

其中，为分类的样本数量，为回归的样本数量；w为训练图像的批次数；k为每批次训练样本中单个样本的索引；λ为损失平衡项。