利索能及
我要发布
收藏
专利号: 2022111556260
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,包括:获取遥感数据,其中所述遥感数据包括至少一张图片;

将遥感数据中的图片输入训练好的遥感目标检测模型;

根据遥感目标检测模型的输出,确定遥感目标检测结果;

其中所述遥感目标检测模型的构建训练方法包括:

步骤1:获取数据集;

步骤2:使用Kmeans聚类算法对数据集作聚类处理,获得一组锚框;

步骤3:构建主干网络经过特征提取得到特征图;

步骤4:在主干网络后构建快速空间金字塔池化结构SPPF进行特征融合得到融合特征图;

步骤5:在快速空间金字塔池化结构SPPF后构建三层的加强特征提取网络BiFPN,融合浅层特征图的空间信息与深层特征图的语义信息,减少信息丢失;

步骤6:在加强特征提取网络BiFPN后构建三个通道注意力模块ECA,使网络更加关注目标的细节信息,提高检测精度;

步骤7:在每个通道注意力模块ECA后构建一个预测输出头,对输出的特征进行预测;

步骤8:利用所述数据集及锚框对遥感目标检测模型进行训练并评估,利用最佳模型进行测试,得到训练好的遥感目标检测模型。

2.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤1中,获取数据集,包括:所述数据集至少包括遥感数据集DOTA v1.0、数据集VOC12以及遥感数据集RSOD、遥感数据集DIOR;

其中数据集VOC12、RSOD的训练集,验证集,测试集按照7:1:2进行随机划分,DIOR按照官方给出的比例1:1:2进行随机划分;

其中遥感数据集DOTA v1.0需要先进行预处理,包括:

步骤1‑1:选取遥感数据集DOTA v1.0中水平标注部分的图片;将选取的每张图片切割为多张固定大小的图片,并对切割后的图片生成相应的标注信息xml文件;

步骤1‑2:对步骤1‑1得到的xml文件进行处理,删除不符合要求的xml文件及对应的图片,得到处理后的DOTA数据集;

其中不符合要求的xml文件有以下三种情况:标注目标为空;所有标注目标的difficult值均为1;标注目标存在越界的问题,标注目标存在越界有六种情况:xmin<0、ymin<0、xmax>width、ymax>height、xmax

width:图片的宽;height:图片的高;

步骤1‑3:对步骤1‑2得到的处理后的DOTA数据集进行划分,划分为train、val、trainval、test四个文件,训练集,验证集,测试集按照7:1:2进行随机划分。

3.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤2中,使用Kmeans聚类算法对数据集作聚类处理,包括:步骤2‑1:根据数据集,在所有的边界框中随机选择K个作为簇中心;

步骤2‑2:计算每个边界框与每个簇中心的距离D,公式如下:D=1‑IOU

式中,A、B分别为边界框与簇中心,IoU为A和B的交并比;

步骤2‑3:计算每个边界框距离最近的簇中心,并分配到离它最近的簇中;

步骤2‑4:根据每个簇中的边界框重新计算簇中心,默认使用中位数来更新簇中心;

步骤2‑5:重复2‑3到2‑4,直到每个簇中的元素不在发生变化则聚类完毕,得到K个簇中心,即所需要的锚框;

步骤2‑6:考虑到预测网络中K值较大时,会增加神经网络的预测时间,因而簇中心的个数K设置为9;在各数据集上使用的锚框如下:DOTA v1.0:(11,10)(20,22)(29,41)(43,25)(44,98)(47,45)(78,63)(100,106)(169,

202)

RSOD:(14,15)(22,23)(30,29)(36,39)(47,48)(55,62)(68,74)(80,92)(223,275)DIOR:(7,7)(8,16)(14,28)(19,11)(26,47)(36,20)(57,60)(107,128)(278,280)VOC12:(21,40)(52,68)(62,141)(97,272)(159,155)(177,380)(303,495)(372,267)(549,556)。

4.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤3中,主干网络的构建方法包括:步骤3‑1:图片输入的尺寸设置为416*416,首先构建两个卷积模块DarknetConv2D_BN_Leaky用于获取特征图,卷积模块包括一个3*3的二维卷积,归一化和激活函数Leaky ReLu,步长设置为2;第一个卷积模块使图片尺寸降为208*208,第二个卷积模块再次缩小图片尺寸为104*104,Leaky ReLu函数表达式如下,x代表输入值:步骤3‑2:在两个卷积模块后串行构建三个残差网络Reduction;残差网络分成两条支路,第一条支路是将输入的特征图进行一次1*1卷积,特征图尺寸不变;再进行一次3*3卷积,使特征图的尺寸减小一半;最后进行一次1*1卷积,特征图的尺寸不变;第二条支路是将输入的特征图进行一次2*2的最大池化,使特征图尺寸减半;再进行一次1*1卷积,特征图尺寸不变;将这两条支路输出的特征图进行堆叠拼接,最终获得尺寸减半后的特征图;第一残差网络、第二残差网络、第三残差网络输出的特征图尺寸分别为:52*52、26*26、13*13;

步骤3‑3:在最后一个残差网络后构建一个卷积模块DarknetConv2D_BN_Leaky进行特征整合,主干网络最终输出的特征图尺寸为13*13。

5.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤4中,快速空间金字塔池化结构SPPF的构建方法,包括:步骤4‑1:将主干网络输出的特征图输入至快速空间金字塔池化结构SPPF,对输入的特征图进行一次卷积得到卷积后的特征图,使通道数减半;

步骤4‑2:构建池化核大小为5*5的三个最大池化层,将卷积后的特征图先经过第一最大池化层进行一次最大池化,输出的结果再依次经过第二最大池化层、第三最大池化层进行最大池化,将第一最大池化层、第二最大池化层、第三最大池化层的结果与卷积后的特征图进行堆叠拼接,将堆叠拼接后的特征图进行一次卷积,最后输出尺寸仍为13*13的融合特征图。

6.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤5中,加强特征提取网络BiFPN的构建方法包括:步骤5‑1:将快速空间金字塔池化结构SPPF输出的尺寸为13*13的融合特征图进行1*1卷积和上采样,使特征图尺寸变为26*26;然后与主干网络中第二残差网络输出的尺寸为

26*26的特征图进行堆叠拼接;

步骤5‑2:将步骤5‑1堆叠拼接后的尺寸为26*26的特征图继续进行1*1卷积和上采样,使特征图尺寸变为52*52;然后与主干网络中第一残差网络输出的尺寸为52*52的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第一通道注意力模块ECA;

步骤5‑3:对步骤5‑2堆叠拼接后的尺寸为52*52的特征图进行下采样,使特征图尺寸变为26*26,然后与步骤5‑1堆叠拼接后的尺寸为26*26的特征图以及主干网络中第二残差网络输出的尺寸为26*26的特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第二通道注意力模块ECA;

步骤5‑4:对步骤5‑3堆叠拼接后的尺寸为26*26的特征图进行下采样,使特征图的尺寸变为13*13,然后与SPPF输出的尺寸为13*13的融合特征图进行堆叠拼接,并将堆叠拼接后的特征图输出至第三通道注意力模块ECA。

7.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤6中,通道注意力模块ECA的构建方法包括:步骤6‑1:将加强特征提取网络输出的特征图进行全局平均池化,特征图从矩阵形式变成向量形式;

步骤6‑2:避免降维,用卷积核大小为k的1维卷积实现局部跨通道交互,提取通道间的依赖关系,并经过Sigmoid激活函数得到各个通道的权重ω,公式如下:ω=σ(C1Dk(y)),其中C1D表示一维卷积,σ表示Sigmoid激活函数,y表示步骤6‑1输出的向量形式的特征图;

步骤6‑3:将权重ω与经过加强特征提取网络处理后的输入特征图进行逐通道相乘,生成加权后的特征图。

8.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤7包括:为进行特征图的回归预测,在每个通道注意力模块ECA后构建一个预测输出头;在预测输出头中,首先构建一个3*3卷积模块进行特征整合,激活函数使用LeakyReLU,步长设置为

1;然后构建一个1*1卷积模块进行通道数的调整,步长设置为1;每个预测输出头获得1个特征图的预测结果,分别对应每张图不同尺寸的网格上的3个预测框位置;最后对预测结果进行解码得到最终的预测框在图片上的位置。

9.根据权利要求1所述的基于通道注意力与多尺度特征融合的轻量级遥感目标检测方法,其特征在于,所述步骤8包括:步骤8‑1:配置训练数据集与模型的相关信息,导入训练数据并训练,各数据集的训练设置如下:VOC12:轮次为300,批大小为64,图片尺寸为640*640;

DOTA v1.0:轮次为500,批大小为64,图片尺寸为640*640;

RSOD:轮次为1000,批大小为32,图片尺寸为640*640;

DIOR:轮次为300,批大小为64,图片尺寸为640*640;

步骤8‑2:训练过程中每个轮次计算一次精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值,最后绘制成曲线图,横坐标为轮次,纵坐标为P/R/map@0.5/map@0.5:0.95,公式如下:Ntp:正样本预测为正样本;

Nfp:负样本预测为正样本;

Nfn:正样本预测为负样本;

AP:以P作为纵坐标,R为横坐标绘制PR曲线,AP值是PR曲线下的面积;

k:图片数目;

p(k):识别出k个图片是P的值;

Δr(k):识别的图片由k‑1增加到k时召回率的变化情况;

mAP:平均精度均值;

c:类别总数;

mAP@0.5:交并比为0.5时的mAP;

mAP@0.5:0.95:步长0.05,从0.5到0.95不同交并比阈值上的平均mAP;

步骤8‑3:使用训练获取的最佳权重对测试集进行测试,批大小设置为1,图片尺寸为

640*640,最终输出精确度P,召回率R,mAP@0.5,mAP@0.5:0.95的值以及每张图片的推理时间T,计算帧率FPS,FPS=1000/T。

10.一种基于通道注意力与多尺度特征融合的轻量级遥感目标检测装置,其特征在于,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据权利要求1至9任一项所述方法的步骤。