利索能及
我要发布
收藏
专利号: 2022101119510
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,该方法首先获取多光谱图像数据集合,然后进行如下操作:步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;具体是:(1‑1)对多光谱数据集进行预处理操作,得到训练数据集

其中Ii表示第i个增强多光谱图像训练样本,共N个训练样

本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中表示多光谱由配对的RGB图像与Thermal图像拼接而成, 表示第i个三通道的RGB图像样本, 表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;

(1‑2)进行像素级标记,记为标记集合 其中Yi是高为H、

宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;

(1‑3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集 的第i个RGB图像样本Iir依次提取RGB四个编码阶段特征图 其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;

(1‑4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图 经过RGB置信度预测分类器得到r rRGB显著置信度Pi,0≤Pi≤1;

(1‑5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集 的第i个Thermal图像样本 依次提取Thermal各个编码阶段特征图 其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层、2×2最大池化层和两个结构相同的上下文卷积模块组成;将Thermal图像样本 输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图 构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由1×1卷积层、空洞率为1和分组数为C1的3×3卷积层与1×1卷积层组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图 和第二支路特征图 再经过通道维度上的拼接得到初级上下文特征图 将初级上下文特征图 输入到第二个

上下文卷积模块,获得高级上下文特征图 再经过一次2×2最大池化层得到第一编码阶段Thermal特征图 将第一编码阶段特征图 输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图(1‑6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图 经过Thermal置信度预t t测分类器得到Thermal显著置信度Pi,0≤Pi≤1;

步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;具体是:(2‑1)构建多光谱显著性感知模块,将RGB图像 进行静态细粒度显著性计算,得到RGB显著图 将Thermal图像 进行静态细粒度显著性计算,得到Thermal显著图(2‑2)对RGB显著图 通过大津法进行阈值分割得到RGB二值图像 对Thermal显著图 通过大津法进行阈值分割得到Thermal二值图像(2‑3)计算RGB二值图像 与像素级标记Yi的交并比 计算

Thermal二值图像 与像素级标记Yi的交并比

(2‑4)通过交并比得到两种光谱图像的显著伪标记:RGB显著伪标记‑7

Thermal显著伪标记 1e 的作用是为了防止除数为零;

步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;

步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;

步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;

步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。

2.如权利要求1所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(3)具体是:(3‑1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,所述的光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成;将Thermal第四编码阶段特征图 输入到光谱引导模块得到Thermal第四编码阶段光谱特征图(3‑2)将RGB第四编码阶段特征图 输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图 将Thermal第四编码阶段光谱特征图 经过Sigmoid函数再与RGB第四编码阶段光谱特征图 进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图(3‑3)将RGB第四编码阶段光谱特征图 经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图 进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图将Thermal第四编码阶段特征图 与Thermal第四编码阶段多光谱融合特t

征图 进行逐元素相加再乘以Thermal显著置信度Pi,得到Thermal第四编码阶段增强特征图 将RGB第四编码阶段特征图 与RGB第四编码阶段多光谱融合特征图r

进行逐元素相加再乘以RGB显著置信度Pi ,得到RGB第四编码阶段增强特征图将Thermal第四编码阶段增强特征图 和RGB第四编码阶段增强特征图进行逐元素相加得到第四编码阶段融合特征图

(3‑4)将Thermal第三编码阶段特征图 和RGB第三编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3‑1)~(3‑3)同类操作,获得第三编码阶段融合特征图 将Thermal第二编码阶段特征图 和RGB第二编码阶段特征图 输入到新构建的门控交叉融合模块,经过与(3‑1)~(3‑3)同类操作,获得第二编码阶段融合特征图 将Thermal第一编码阶段特征图和RGB第一编码阶段特征图 输入到新构建的门控交叉融合模块,经过与(3‑1)~(3‑3)同类操作,获得第一编码阶段融合特征图

3.如权利要求2所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(4)具体是:(4‑1)构建由五个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,将第一编码阶段融合特征图fi,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图(4‑2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图 将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图 将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图(4‑3)将各个编码阶段修正特征图进行通道维度上的拼接,得到集成修正特征图(4‑4)将集成修正特征图ti输入到解码器的第五个转置卷积,得到预测分割标记多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。

4.如权利要求3所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(5)具体是:(5‑1)将预测分割标记 与像素级标记Yi作为输入,利用交叉熵损失函数计算损失值h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示K个语义类别中的第k个类别;

r

(5‑2)将RGB显著伪标记 和RGB显著置信度Pi 作为输入,利用L1损失函数计算损失值:t

其中||·||1表示L1范数;将Thermal显著伪标记 和Thermal显著置信度Pi作为输入,利用L1损失函数计算损失值:(5‑3)将损失值 作为输入,得到最终的损失函数为 λ>0为

置信度损失函数权重;

(5‑4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。

5.如权利要求4所述的基于非对称交叉融合的多光谱图像语义分割方法,其特征在于,步骤(6)具体是:(6‑1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;

(6‑2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作,最终输出相应的分割结果 其中第一个维度表示语义类别。