买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法

￥31200

专利号： 2020101641677

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：包括以下步骤：S101：收集无人机航拍汽车图像集并进行分块处理，得到大量大小一致的切块小图；

S102：将切块小图输入残差网络，通过残差网络内部卷积注意力模块提取特征，所述卷积注意力模块包括第一通道注意力单元和第一空间注意力单元，根据第一通道注意力单元计算得到通道注意力图，根据第一空间注意力单元计算得到空间注意力图，结合通道注意力图和空间注意力图生成第一特征图；

S103：通过基于特征金字塔的检测器对第一特征图提取特征，通过对特征金字塔的从上到下部分的每一层添加含有第二空间注意力单元和第二通道注意力单元的双重注意力模块，将两个注意力单元产生的特征图进行融合得到第二特征图，并在最后一层把区域建议网络生成的第二特征图进行感兴趣区域对齐操作，固定特征的大小；

S104：针对获得的感兴趣区域对齐的第二特征图，建立目标类别分析与目标框回归模块，对不同尺度下感兴趣区域进行分类与目标框预测；

S105：采用原图和1.5倍原图进行多尺度图像测试，分别将两种尺度的图像输入深度网络进行测试，再通过全局集成非极大值抑制算法融合不同尺度的结果，来提高检测准确率；

所述步骤S102具体包括：

将图片输入内嵌有卷积注意力模块的残差网络，其中第一通道注意力单元使用最大池化和平均池化在空间维度上对图片进行压缩，得到两个不同的空间背景和通过残差网络对空间背景和进行计算得到通道注意力图，第一通道注意力单元的计算公式为：其中：W1和W0表示多层感知机的权重，并且在多层感知机中两个权重共享输入，而在多层感知机中，W0后面跟随了一个relu激活函数；σ代表Sigmoid函数；

其中第一空间注意力单元在通道的维度上根据最大池化和平均池化得到两个不同的特征描述和根据卷积计算生成空间注意力图，第一空间注意力单元的计算公式为：

7*7

其中：σ表示Sigmoid函数，f 表示卷积核大小为7*7；

然后根据通道注意力图和空间注意力图生成第一特征图；

所述步骤S103具体为：

通过基于特征金字塔的检测器对第一特征图提取特征，对特征金字塔的从上到下部分的每一层添加含有第二位置注意力单元和第二空间注意力单元的双重注意力机制；

通过第二位置注意力单元计算出任意两点特征之间关联强度矩阵，即原始特征Aj经过卷积降维获得特征Bi、特征Cj和特征Di，然后改变特征维度Bi和Cj，根据矩阵乘积获得任意两点特征之间的关联强度矩阵；利用softmax函数计算获得每个位置对其他位置的特征Sji，接着将特征Sji和特征Di进行相乘融合，最后将结果和原始特征Aj进行相加得到位置注意力单元最终输出的位置特征图，其中第二位置注意力单元的计算公式如下：其中Aj表示给定的位置所对应的特征；Bi，Cj，Di表示将Aj经过卷积降维产生的三个新的特征，Sji表示将Bi，Cj重新变形后进行矩阵相乘再经过softmax层得到的位置注意力图，Ej1表示第二位置注意力单元最终输出的位置特征图；

通过第二空间注意力单元将任意两个通道特征进行维度变换和矩阵乘积，获得任意两个通道的关联强度，然后计算获得通道间的注意力图，最后通过通道之间的注意力图加权进行融合，使得各个通道之间能产生全局的关联，获得更强的语义响应的特征，第二空间注意力单元的计算公式如下：其中Aj表示给定的位置所对应的特征，xji表示Aj与Aj的转置Ai相乘后经过softmax层得到的通道特征图，Ej2表示第二空间注意力单元最终输出的空间特征图；

最后将位置特征图和空间特征图进行特征融合，获得最终的第二特征图，并在最后一层区域建议网络对得到的第二特征图进行感兴趣区域对齐操作，固定特征的大小；

所述全局集成非极大值抑制算法过程如下：

Step1.各尺度子块预测框坐标全局对齐；

Step2.检测框置信度权值加权计算与排序；

Step3.选择置信度最高的比边界框添加到最终输出列表中，将其从边界框列表中删除；

step4.计算所有边界框的面积；

Step5.计算置信度最高的边界框与其它候选框的IOU；

Step6.删除IOU大于阈值的边界框；

Step7.重复上述过程，直至边界框列表为空。

2.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S101具体包括：对图像按照1000*1000的像素尺寸进行滑窗式分块，采用0.25的重叠率，并保留IOU＞

0.7的车辆的人工标注框坐标信息，对于切块后的图像中所有车辆，将人工标注的边界框转换为切块小图的坐标。

3.根据权利要求1所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S104具体为：将第二特征图进行感兴趣区域对齐操作并获得固定特征的大小后，连接两个1024层的全连接层，然后分两个支路，分别建立目标类别分析与目标框回归模块，对特征金字塔的不同尺度下感兴趣区域进行分类与目标框预测。

4.根据权利要求3所述的一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法，其特征在于：所述步骤S105具体为：在测试中采用多尺度图像测试，除测试集中原图以及原图的1.5倍图，再对两种尺度的图像进行分块处理，然后将两种尺度的图像分别输入深度网络进行测试，得到各自尺度上的检测结果，对两种尺度的检测结果利用全局非极大值抑制融合算法结合两种尺度的检测结果，来提高检测准确率。