利索能及
我要发布
收藏
专利号: 2021110097662
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于金字塔切分注意力模块的遥感图像语义分割方法,其特征在于,具体按照以下步骤实施:步骤1、获取高分辨率遥感影像,构建遥感图像多类别语义分割数据集;将遥感图像多类别语义分割数据集按照9:1划分为训练集和测试集,并将训练集和测试集采用基于最佳波段指数OIF选择适合遥感地物分类的最佳波段组合,并将选择后的波段组合作为输入数据;

步骤2、搭建基于金字塔切分注意力模块的遥感图像语义分割模型;

所述步骤2采用编码器‑解码器结构搭建基于金字塔切分注意力模块的遥感图像语义分割模型,其中编码器包括主干网络、引入金字塔切分注意力模块的特征增强网络和多级特征融合网络三部分;

主干网络:采用移除最后一层全连接层的Resnet‑101进行遥感图像高维特征提取,Resnet采用Bottleneck的残差模块,从浅层到深层依次得到五个不同层次的特征图,分别记为L0、L1、L2、L3、L4;

引入金字塔切分注意力模块的特征增强网络:特征增强网络在主干网络输出的特征图L4后引入空洞空间金字塔池化ASPP模块用于空间特征信息获取,同时采用金字塔切分注意力PSA模块进行特征增强,最后将二者得到的特征图进行特征融合,得到增强的深层特征图output_Y1;

多级特征融合网络:在主干网络中间的三层特征图L1、L2、L3后分别采用金字塔切分注意力PSA模块,进行多尺度和跨信道的特征增强,并将增强后的特征图采用层层级联的方式进行特征融合,得到融合后的深层特征图output_Y2;

解码器对深层特征图output_Y1采用双线性插值进行4倍上采样后与深层特征图output_Y2进行特征融合,融合后采用深度可分离卷积重新定义遥感图像高维特征,最后再次采用双线性插值进行上采样恢复至原图尺寸;

至此基于金字塔切分注意力模块的遥感图像语义分割模型搭建完成;

所述步骤2中特征增强网络中的空洞空间金字塔池化ASPP分别由1个1×1卷积、3个空洞率分别为6、12、18的3×3的卷积和一个平均池化层并行构成;特征图L4尺寸为2048×16×16,经过ASPP分别输出5个通道数为256的特征图,沿通道方向对其进行合并,合并后的通道数为5×256,再利用1×1卷积进行降维,通道数降为256,输出的特征图output_X1尺寸为

256×16×16;

所述步骤2中的特征增强网络和多级特征融合网络中PSA模块通过四个步骤实现:(1)利用多尺度特征提取算子SPC模块将输入的特征图X沿通道数切分为S块,用Xi表示每个单独的块,i=0,1…S‑1,每个块有C′=C/S个通道数,对每个块进行分组卷积,独立学习多尺度空间信息,并以局部方式建立跨信道交互,生成不同尺度的特征图Fi,再通过级联方式生成完整的多尺度特征图F;

不同尺度的特征图Fi表示为:

Fi=Conv(Ki×KiGi)(Xi)i=0,1,2…S‑1

其中,K为卷积核大小,G为分组大小,第i个卷积核大小Ki=2×(i+1)+1,第i个分组大小C′×H×WFi∈R 表示不同尺度的特征图;

C×H×W

整个多尺度特征图F∈R 表示为:

F=Cat([F0,F1,F2…,FS‑1]);

(2)利用通道注意力模块提取不同尺度特征图的通道注意力向量,再通过串联方式得到整个多尺度通道注意力向量;

不同尺度上的通道注意力向量Zi表示为:

Zi=SEWeight(FI),i=0,1,2,…S‑1

整个多尺度通道注意力向量Z的串联方式为:

(3)利用Softmax激活函数对不同尺度上的通道注意力向量Zi进行特征重新标定,得到新的不同尺度通道交互后的注意力权重atti,建立部分与全局通道注意力的关系;将特征重新标定后的注意力权重以串联的方式进行融和,得到整个多尺度通道注意力权重att;

不同尺度上的通道注意力权重atti表示为:

整个多尺度通道注意力权重att表示为:

(4)对重新标定后的通道注意力权重atti和对应的特征图Fi按元素进行点乘操作,得到一个不同尺度特征信息注意力加权之后的特征图Yi;最后在将加权后的特征图Yi进行拼接,得到完整的特征图Out;

不同尺度特征信息注意力加权之后的特征图Yi表示为:

Yi=Fi⊙attii=1,2,3…,S‑1

完整的特征信息注意力加权之后的特征图Out表示为:

Out=Cat([Y0,Y1,…,YS‑1])

特征图Out为经过PSA模块得到的多尺度特征信息更丰富的精细化特征图;

所述特征增强网络具体为:使用PSA模块将输入的特征图L4从通道上切分为4组,设置卷积核大小为K={3,5,7,9},分组大小为G={1,4,8,16},得到精细化特征图output_X2,精细化特征图output_X2尺寸为256×16×16;

将特征图output_X1和output_X2进行特征融合,融合后采用1×1卷积重新定义特征并降维,再采用双线性插值进行4倍上采样,恢复至原图的1/4,输出特征图output_Y1尺寸为

256×64×64;

所述多级融合网络具体为:在特征图L1、L2、L3后分别引入PSA模块进行特征增强,分别输出增强后的特征图为C1、C2、C3;首先对特征图C3进行2倍上采样后与特征图C2进行特征融合,融合后得到特征图output_X3;其次将特征图output_X3进行2倍上采样后与特征图C1进行特征融合,融合后得到特征图output_Y2,特征图output_Y2尺寸为原图的1/4;

步骤3、将步骤1中的遥感图像多类别语义分割数据集送入所述步骤2中的遥感图像语义分割模型中进行训练,得到带有最优参数的遥感图像多语义分割模型;

步骤4、对待识别的高分辨率遥感影像采用256×256大小的滑动窗口无重叠的进行读取,然后依次送入所述步骤3中带有最优参数的遥感图像语义分割模型中进行识别,最后得到遥感图像语义分割的识别结果。

2.根据权利要求1所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法,其特征在于,所述步骤1具体按照以下步骤实施:步骤1.1、获取成像波段为R、G、B、Nir的高分辨率遥感多光谱图像,数据覆盖地貌包括河流、山地、平原在内的地区,遥感图像保存格式为tif文件,人工进行标注,标注的对象为所要分割的裸地、草地、林地、水域、道路在内的目标,标注后生成标签数据格式为单通道的png;并将影像和对应的标签数据裁剪为256×256像素大小;

步骤1.2、通过标签数据筛选出数目较少的类别的遥感图像,即道路、水域、居民用房在内的类别对象,并采用标准扩孔技术随机翻转、缩放、饱和和Mixup混合增强方式进行数据增广,使得各个类别的图像数据都处在同一数量级;按照9:1的比例划分为训练集和测试集,且两者未有交集;

步骤1.3、将训练集和测试集中的图像采用基于最佳波段指数OIF选择适合遥感地物分类的最佳波段组合,并将选择后的波段组合作为输入数据。

3.根据权利要求2所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法,其特征在于,所述解码器首先对深层特征图output_Y1采用双线性插值进行二倍上采样,恢复至原图1/4,然后与深层特征图output_Y2进行特征融合,融合后再采用两个3×3的深度可分离卷积重新定义遥感图像的高维特征,最后再次采用双线性插值进行上采样恢复至原图尺寸。

4.根据权利要求1所述的一种基于金字塔切分注意力模块的遥感图像语义分割方法,其特征在于,所述步骤3具体按照以下步骤实施:根据遥感图像语义分割模型的参数量,将批大小设置为16;

采用的优化函数是带动量的随机梯度下降法SGD,遥感图像语义分割模型的初始学习率定为0.01,采用poly学习率调度,动量设为0.9,权重衰减设为0.0001,通过训练数据的反向迭代更新整个网络的权值参数,同时应用交叉熵损失函数加强网络训练过程,从而使网络能够学习到针对遥感图像语义分割这一特定问题的最优参数,训练完成生成带有最优参数的遥感图像语义分割模型。