1.基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,包括以下步骤:步骤(1)构建多光谱图像数据集合,所述多光谱图像数据集合中的图像数据包括:RGB模态图像和Thermal模态图像;
利用4个级联的转换器网络构建得到一个特征编码器,使用2个特征编码器分别提取RGB模态图像和Thermal模态图像的特征表示;将提取RGB模态图像的特征编码器记为R,将提取Thermal模态图像的特征编码器记为T;
组成R的4个级联的转换器网络,按顺序依次记为R1、R2、R3、R4;
组成T的4个级联的转换器网络,按顺序依次记为T1、T2、T3、T4;
2个所述特征编码器组成1个双流特征编码器;
步骤(2)构建考虑模态分歧的差异融合模块,所述差异融合模块由4个差异融合子模块组成;每个差异融合子模块由语义分歧检测子模块、分歧协调子模块、语义增强子模块、通道混合子模块组成;
所述4个差异融合子模块分别为差异融合子模块一、差异融合子模块二、差异融合子模块三、差异融合子模块四;
RGB模态图像依次经过R1、R2、R3、R4处理后得到的特征,与Thermal模态图像依次经过T1、T2、T3、T4处理后得到的特征,共同输入至所述差异融合子模块四,得到第四层差异融合特征步骤(3)构建前景分割头,所述前景分割头由两层全连接层和上采样模块组成,所述前景分割头的输入为 输出为前景掩膜,记为M;
步骤(4)将RGB模态图像经过R1处理后得到的特征 与Thermal模态图像经过T1处理后得到的特征 输入差异融合子模块一,并将M输入语义分歧检测子模块,得到第一层差异融合特征经过R2处理后得到的特征 与 经过T2处理后得到的特征 输入差异融合子模块二,并将M输入语义分歧检测子模块,得到第二层差异融合特征经过R3处理后得到的特征 与 经过T3处理后得到的特征 输入差异融合子模块三,并将M输入语义分歧检测子模块,得到第三层差异融合特征步骤(5)构建全连接解码器和全连接语义分割头,得到由双流特征编码器、差异融合模块、前景分割头、全连接解码器和语义分割头组成的多光谱语义分割模型;所述全连接解码器的输入为 将所述全连接解码器的输出,直接输入所述全连接语义分割头,得到预测掩膜;基于预测掩膜对多光谱图像进行分割;
步骤(6)基于交叉熵损失构建损失函数,利用随机梯度下降法优化多光谱语义分割模型,直至模型收敛;
所述步骤(1)还包括对所述数据集做预处理,所述数据集中的图像数据包括RGB模态图像和Thermal模态图像与其类别语义标记,类别语义标记由每个像素的语义类别索引组成;
将所有除背景类外的语义类别索引作为前景区域,得到前景标记;
步骤(1)中,所述构建多光谱图像数据集合,包括:
(1‑1)对多光谱RGB‑T图像 沿通道拆分为RGB图像和Thermal图像等两种模态,其中,4为RGB‑T通道数;将Thermal图像沿通道复制三份以适应特征提取器,得到和 其中W和H分别为图像的宽和高,3为RGB通道数;
(1‑2)将语义区域转化为前景区域,具体地,将像素级语义标记张量 转化为像素级前景标记张量 即 其中Y中元素取值范围为{1,2,..,K},K为语义类别数,yu,v表示在坐标(u,v)处的像素点标记,下标u,v分别表示特征图高和宽的坐标;
步骤(1)中,所述利用4个级联的转换器网络构建得到一个特征编码器,使用2个特征编码器分别提取RGB模态图像和Thermal模态图像的特征表示,包括:(1‑3)使用四个混合转换器MIT构建所述特征编码器,分别提取两种模态图像的特征表示,即 与 其中 i表示特征提取器的第i层,其中 为RGB通道的特征图, 为Thermal通道的特征图,R为RGB的缩写,T为Thermal的缩写,C为特征通道数,C2=2C1,C3=4C1,C3=8C1,C4=16C1;
所述步骤(2)中,所述语义分歧检测子模块、分歧协调子模块、语义增强子模块、通道混合子模块的构建,以及所述得到 的过程,包括以下步骤:(2‑1)构建语义分歧检测子模块,该模块将步骤(1)获得的两种模态的特征表示划分为语义分歧区域和语义一致区域,分别从特征差异和邻域差异对语义分歧进行度量;对于所述差异融合模块的第四层,即差异融合子模块四,输入给定步骤(1‑3)中特征图特征图
1×C
与 与其特征图上像素点特征记为pR=FR[u][v]∈R 与pT=FT[u]
1×C
[v]∈R ,及其对应半径为r的邻域特征图记为
与 其中AT为Thermal通道的邻域特征
图,AR为RGB通道的邻域特征图;
利用像素点特征PR与PT间的余弦相似度计算特征差异得分,即:其中 表示特征差异得分,||·||2表示特征L2范数;
利用邻域特征图AT与AR间L2范数计算邻域差异得分,即:
其中 表示邻域差异得分,AR[n]表示RGB邻域特征图中的第n个特征,AT[n]表示Thermal邻域特征图中的第n个特征;
计算特征差异和邻域差异性得分 逐个计算每个位置的特征差异和邻域差异得分 并按对应位置填入矩阵得到分歧矩阵 其代表对应位置像素的语义分歧程度,根据分歧矩阵WDiv筛选差异得分较大的前δ个元素值作为分歧区域,并记录下其对应位置横纵坐标组成分歧区域位置矩阵记为(2‑2)构建语义增强子模块对语义一致区域特征进行融合,语义增强子模块将完整特征图 和 作为输入,具体由两条并行支路组成,分别为RGB语义增强支路和Thermal语义增强支路,每个支路都由通道扩展模块,通道语义增强模块,空间语义增强模块以及通道恢复模块组成;
首先使用通道扩展模块将特征通道数扩张至原有通道数的2倍,通道扩展模块由一个1×1卷积层与7×7深度可分离卷积层组成,得到通道扩张后的RGB模态特征图和Thermal模态特征图 与 再使用通道语义增强模块对模态语义相互增强,语义增强模块沿着空间维度进行最大池化操作和平均池化操作,通过全连接层相加融合后经Sigmoid函数 得到通道注意力权重 与 随后,将通道注意力权重 和 与通道扩张后的特征 和 相乘,同时添加残差连接以保留通道扩张后的特征信息,即:其中 表示哈达玛积hadamard product, 与 分别表示经通道语义增强后所得RGB模态特征图和Thermal模态特征图;
使用空间语义增强模块增强空间特征,首先沿着通道维度使用最大池化和平均池化以及1×1卷积,将得到的特征沿通道维度拼接,并使用1×1卷积分别得到RGB通道和Thermal通道的空间注意力权重 与 将空间注意力权重 和 与通道语义增强后特征图 和 相乘,在空间维度上进行语义相互增强;为保留通道语义增强后的特征信息,通过残差连接将其与空间语义增强后的特征图进行融合,即:其中 与 分别表示通道语义增强和特征语义增强后的RGB模态特征图和Thermal模态特征图;最后,通道恢复模块使用1×1卷积对特征通道降维,得到语义融合特征图与(2‑3)构建分歧协调子模块以融合语义分歧区域特征,首先对步骤(2‑1)所得分歧区域Posdiv对应位置特征进行采样,得到RGB模态分歧特征集合和Thermal模态分歧特征集合其中PR表示RGB模态的特征点,PT表示Thermal模态的特征点,对半径r的特征区域特征采样,得到的分歧特征邻域集合记为:其中AR表示RGB模态的特征邻域,AT表示Thermal模态的特征点;
对集合 与 内所有元素 和 沿着通道维度拼接,得到中间特征并构建中间特征集合 使用多头注意力机制融合特征:
对于每个中间特征使用点积注意力机制计算,得到每个注意力头的输出:其中,h∈{1,2,...,head},SoftMax(·)为归一化指数函数,为可学习的仿射变换矩阵,head为
注意力头数;其中,head=6;
为聚合多头注意力的输出,将每个注意力头输出 和 进行分别拼接,即:其中MH(·)为多头注意力,Concat(·)表示拼接操作, 代表RGB通道对应注意力头的输出, 代表Thermal通道对应注意力头的输出, 与 分别为RGB模态和Thermal模态可学习的仿射变换矩阵,乘以仿射变换矩阵的目的是降低通道维度并混合注意力头的输出;
在分歧协调子模块中添加层归一化和残差连接,最后通过前馈神经网络建立通道间的关系,得到分歧协调特征集合,即:其中,FFN(·)代表前馈神经网络Feed‑Forward Network,由两层全连接层和一层激活层组成,LN(·)表示层归一化Layer Normalization, 与 为分歧协调特征集合;
(2‑4)构建通道混合子模块对特征进行融合,该模块由两个融合支路组成,通道注意力支路以及空间通道混合支路;首先利用步骤(2‑3)分歧协调模块的输出对步骤(2‑2)语义增强模块的输出做特征替换操作,即:其中, 与 分别属于集合 与 u,v∈Posdiv;
经替换后将两种模态 和 特征沿通道维度拼接,经过由多层大核卷积层和1×1卷积组成的空间通道混合支路,分别在空间和通道维度上进行融合,其中多层大核卷积由2层卷积层大小为7×7的深度可分离卷积和层次归一化层组成;为更好的建立特征通道间的关系,额外添加通道注意力支路,该支路由通道注意力模块和1×1卷积组成;最后,将通道注意力支路输出和空间通道混合支路输出通过数值相加进行混合,得到第四层通道混合特征图
2.如权利要求1所述的基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,所述步骤(5)中,所述全连接解码器为语义引导的动态全连接解码器;
所述动态全连接解码器由4个语义权重生成模块和4个全连接解码器组成;
将所述 分别输入4个所述语义权重生成模块,分别得到
将 作为4个全连接解码器的权重参数;
将所述 分别输入4个全连接解码器,得到的4个输出均输入所述全连接语义分割头。
3.如权利要求1所述的基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,所述步骤(3)具体包括以下步骤:
构建全连接层前景分割头,输入为第四层通道混合特征图 前景分割头由两层全连接层和上采样模块组成,首先第一个全连接层降低特征图 的通道维度,接着进行线性插值上采样操作,将分辨率还原至 再通过第二个全连接层将特征图通道数降低为1,并使用Sigmoid函数将第二个全连接层输出的特征图数值归一化至区间[0,1]内,得到当数值大于0.5时视为前景区域即 并得到前景掩膜
4.如权利要求3所述的基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,所述步骤(4)具体包括以下步骤:
(4‑1)对于步骤(2)所构建的四层结构的差异融合模块,为进一步限制语义分歧检测模块所作用的范围,以更好的对特征进行融合,使用步骤(3)中得到的前景掩膜 对语义分歧区域进行限制,即:其中, 表示哈达玛积, 为使用掩码得到的分歧矩阵,根据分歧矩阵 筛选差异得分较大的前δ个元素值作为分歧区域,并记录下其对应位置的横纵坐标,组成分歧区域位置矩阵记为(4‑2)构建语义增强子模块对语义一致区域特征进行融合,具体模块操作与步骤(2‑2)保持一致,语义增强子模块的输入为 和 输出为和 其中j∈{1,2,3};
(4‑3)构建分歧协调子模块以融合语义分歧区域特征,具体模块操作与步骤(2‑3)一致,分歧协调子模块的输入为分歧特征集合以及分歧特征邻域集合
其中,坐标u,
v∈Posdiv,输出为分歧协调特征集合 与
(4‑4)构建通道混合子模块对特征进行融合,具体模块操作与步骤(2‑4)保持一致,通道混合子模块的输入为步骤(4‑3)分歧协调特征集合 与 和步骤(4‑2)语义融合特征和 输出为第一至三层通道混合特征图
5.如权利要求4所述的基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,步骤(5)具体包括以下步骤:(5‑1)首先构建四个语义权重生成模块,分别为四层动态全连接解码器生成动态权重;
单个语义权重生成模块由5个1×1卷积和金字塔池化模块组成,该模块的输入为第四层通道混合特征 首先使用1×1卷积降低特征通道维度,再通过金字塔池化模块得到多尺度特征表示,该模块由3×3,5×5,7×7不同窗口大小的池化层组成,并分别使用三个1×1卷积调整通道数;
在获得多尺度特征表示后将其上采样至同一尺度并进行拼接操作,最后使用1×1卷积再次减少通道数以生成最后的解码器动态权重,输出为四层全连接特征解码器的权重矩阵其中l∈{1,2,3,4}为解码器特征层数,Cd=128为解码器特征通道数;
(5‑2)构建包含动态全连接层与上采样模块的动态全连接解码器,并对多层融合特征进行解码;具体是:将(5‑1)的动态全连接解码器权重 以及(2‑4)与(4‑4)的通道混合特征图 进行矩阵乘法,其中l∈{1,2,3,4};使用上采样模块将特征图尺寸上采样至原图的 输出解码特征图(5‑3)构建全连接语义分割头生成语义分割结果,该模块由拼接操作、全连接层与上采样模块组成,输入为解码特征图 输出为预测分割标记张量
6.如权利要求5所述的基于模态分歧差异融合的多光谱图像语义分割方法,其特征在于,所述步骤(6)包括以下步骤:(6‑1)将预测分割标记张量 与像素级语义标记张量Y作为输入,利用交叉熵损失函数计算前景分割损失即 其中h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示第k个语义类别;
(6‑2)将步骤(3‑1)的前景掩膜M与步骤(1‑2)的像素级前景标记张量 作为输入,利用二元交叉熵损失函数计算语义分割损失,即(6‑3)将按照步骤(2‑3)和步骤(4‑3)获得的各层分歧协调特征集合 与 作为输入,利用余弦相似度计算特征一致性损失,即 其中(6‑4)计算语义分割模型的损失函数 其中λ1,λ2,λ3>0为超参数;利用随机梯度下降法优化多光谱语义分割模型。