1.一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,包括以下步骤:步骤S1:遥感图像预处理,对数据集进行裁剪扩充;
步骤S2:对步骤S1预处理后的数据集进行划分,分为训练数据集、验证数据集和测试数据集;
步骤S3:构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型;
步骤S4:使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存;
步骤S5:加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像;
步骤S3构建基于深度学习的多尺度聚合Transformer遥感图像语义分割模型,包括以下步骤:S31:对于三通道的图像数据,首先经过一个3×3的卷积层扩展通道然后输入到MobileNetv2块中提取图像的浅层特征;
S32:对于提取到的浅层特征,利用具有高效的Transformer的MobileViTv2块来提取语义特征,编码器内包含3个MobileViTv2块,每个块和MobileNetv2块交替串联在一起;
MobileViTv2块主要由两部分构成,局部表示部分和全局表示部分;对于输入的张量,其中,表示特征高度, 表示特征宽度,表示特征的通道数;局部表示部分利用 的卷积层和 的卷积层来生成 ,表示卷积后的通道数; 卷积对局部空间信息进行编码,而 的卷积通过学习输入通道的线性组合将张量投影到高维空间;将高维的张量输入到全局表示部分,将输入的 展开为 个不重叠的扁平补丁块 ;这里的 , 是补丁块的数量, 和 分别是补丁的高度和宽度,表示补丁块的通道数,对于每一个 ,通过Transformer来编码补丁块间的关系来获得 ,公式表达为: ;
随后,折叠 得到 ,然后使用逐点卷积将 投影到低的 维度空
间,通过串联操作与 进行组合,然后,使用另一个 卷积层来融合这些特征;将第一个MobileNetv2块和三个MobileViTv2块提取的共四个阶段的特征作为编码器的输出输入到解码器中,将 输入到解码器中;
S33:解码器具有四个阶段与编码器阶段对应,且每个阶段都有一个双线性插值操作,来恢复特征分辨率,前三个阶段的每个阶段都由部分卷积Transformer模块构成并且都采用高效的三明治设计,高效的部分卷积Transformer模块夹在两个FFN层之间,应用一个自注意力层 ,用于空间混合,该层夹在两个FFN层 之间,计算可以用公式表达为:, 表示输入到 ‑th块的全部特征,该模块通过单个注意力层
前后2个FFN层将 转换为 ,在FFN层之前使用DW卷积作为令牌交互层,通过引入局部结构信息的归纳偏置来增强模型的性能;
S34:注意力层 为每个注意力头提供完整特征的子集,将每个头计算注意力后的特征进行求和后与剩余的特征进行串联,这种注意力可以表示为:表示计算第 个头对 的
自注意力, , ,是头的总数, 表示输入到多头自注意力中
计算注意力的部分特征, , 和 是将输入特征映射到不同子空间的投影层, 表示将每个头计算完注意力并进行求和后的特征, 表示剩余的特征, 表示将串联后的特征映射回输入维度的投影层, 表示映射后的特征;
S35:为了使QKV层学习到特征更丰富的信息提高其容量,使用级联的方式来计算每个头的注意力,将每个头的输出添加到后续头中,以逐步改进特征表示:其中 表示第 ‑th头计算的注意力 和 ‑th头计算
的注意力 的和,它代替 作为第 个头的新输入特征来计算注意力;
S36:每个阶段输出的特征经过双线性插值操作恢复特征分辨率输入到下一个阶段,将解码器每个阶段的特征通过加权求和操作与编码器中对应阶段的特征进行融合,加权求和公式为: ,其中,MF表示来自编码器的特征,PTM表示来自解码器的特征,为模型根据特征对于分割精度的贡献程度自动学习的参数,在编码器的最后阶段使用特征细化模块来充分融合这两个阶段的特征;特征细化模块有两条路径,空间路径和通道路径;空间路径使用深度卷积来产生空间注意力,通道注意力使用全局平均池化来产生通道注意力;之后两条路径产生的特征使用加权求和操作来进一步融合获得注意力加权后的融合特征;对融合后的特征使用深度卷积、BN操作、1×1卷积层并使用残差连接,最后经过ReLU激活层、1×1卷积层和双线性插值将分辨率恢复到和输入图像同样的大小
2.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S1具体为:使用Vaihingen数据集,该数据集由33个精细的空间分辨率TOP图像块构成,平均大小为2494×2064像素,按照步长为1024像素对该数据集进行裁剪,得到每张为1024×1024像素的图像。
3.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S2具体为:将步骤S1处理得到的Vaihingen数据集的33个精细的空间分辨率TOP图像块分为两部分,其中,使用16个图像块进行训练,其余17个图像块进行验证和测试。
4.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S4,使用步骤S2中的训练数据集和验证数据集对步骤S3构建的模型进行训练、验证和优化,并将得到的最优模型权重进行保存,具体为:S41:构建用于模型参数优化更新的损失函数,模型选择以交叉熵Cross Entropy Loss函数作为损失函数来更新参数,交叉熵函数表达式为:,其中,为训练样本的数量, 为遥感图像
的分割标签, 为模型预测的遥感图像分割图,表示第个类别,通过与真实标签计算损失值来迭代更新模型参数;
S42:设置模型训练参数,其中,batchsize设置为8,初始学习率设置为0.0002,迭代80K轮,每10k轮保存一次模型权重;训练时,使用随机裁剪、随机旋转和随机翻转数据增强技术;
S43:使用mIoU作为主要评价指标来客观评价模型的分割性能,mIoU的计算公式为:其中,表示第 个类别, 表示真正例,模型预测为正例,实际
是正例; 表示假正例,模型预测为正例,实际是反例; 表示假反例,模型预测为反例,实际是正例; 表示真反例,模型预测为反例,实际是反例;使用AdamW优化算法进行模型参数学习的优化;AdamW优化算法是在Adam的基础上引入了权重衰减Weight Decay的机制;
AdamW优化算法的参数有学习率learning rate:;一阶矩估计的指数衰减率decay rate for the first moment: ;二阶矩估计的指数衰减率decay rate for the second moment: ;权重衰减率weight decay rate: ;初始阶段,一阶矩估计为m=0,二阶矩估计为v=0,时间步数为 ;在每个训练步骤中,对于每个参数P的梯度g时间步数:,一阶矩估计: ;计算二阶矩估计: ;
如果权重衰减率 不为0: ;修正一阶矩估计的偏差: ;修正
二阶矩估计的偏差: ;更新参数: ,是一个接近0的
常数,用于保证数值稳定性;循环上述步骤,迭代模型直到完成训练次数,将最优模型权重保存。
5.根据权利要求1所述基于深度学习的多尺度聚合Transformer遥感图像语义分割方法,其特征在于,步骤S5,加载步骤S4所保存的最优模型权重,将步骤S2中的测试数据集输入步骤S3构建的模型中来分割遥感图像,具体为:S51:将步骤S2的测试数据集输入到步骤S3构建的模型中,并应用随机反转和随机旋转数据增强技术;
S52:加载步骤S4中的最优模型权重到步骤S3构建的模型中来分割遥感图像。