1.一种基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,包括:使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征;
将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合;
通过渐进式差分与融合解码模块,将最高级的跨模态差分补偿与融合模块的输出特征作为低一级跨模态差分补偿与融合模块的输入,连续地将低级模态特征融合进来,得到融合图像;
使用CNN和Transformer编码器分别提取红外和可见光图像的多尺度特征,包括:分别由基于CNN编码和基于Transfomer编码的特征编码器从可见光和红外原图像中提取浅层特征Fvi和Fir;其中,使用基于CNN编码的特征编码器提取红外图像分支,同时采用基于Restormer Block编码的特征编码器提取可见光图像分支,以获取图像的细节纹理信息和结构信息,表示为下式:其中, 和 分别表示从红外和可见光图像中提取的深度特征,上标i={0,1,2,3}对应第i层的输出特征;当i=0时表示浅层提取的输出特征,当i={1,2,3}表示分别通过CNN编码和Transfomer编码得到的3个阶段的多尺度特征;Ivi和Iir分别表示可见光图像和红外图像;E(.)表示原图像;
将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中,跨模态差分补偿与融合模块包括跨模态差分补偿模块和跨模态特征融合模块,所述跨模态差分补偿模块定义为:其中, 表示逐元素求和, 表示逐元素乘积,δ(·)表示Sigmod函数,Conv(.)表示卷积操作,GMP(·)和GAP(·)分别表示全局最大池化和全局平均池化;公式(2)表示经过全局最大池化,全局平均池化以及卷积后,通过sigmoid函数将这些注意力图归一化生成相互对应的注意力权重,补充特征乘以注意力权重,将结果与原始特征相加得到模态补充信息。
2.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,将所述多尺度特征输入到4个跨模态差分补偿与融合模块进行特征融合的步骤中,特征融合包括:将对第四层的输出特征 和 进行融合,得到初始融合特征
将 分别经过通道注意力和空间注意力得到初始融合注意力权重图,并通过信道相加获得初始权重图使用Sigmoid函数归一化生成相互对应的注意力权重;
将所述注意力权重和 分别相乘后进行融合,得到中间融合特征 同时将作为下一个跨模态特征融合模块的输入。
3.如权利要求2所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,所述跨模态特征融合模块定义为:其中, 表示逐元素求和, 表示逐元素乘积,p表示prelu激活函数,Conv(.)表示卷积操作,GMP(·)表示全局最大池化, 表示中间融合特征, 表示初始权重图,δ(·)表示Sigmod函数, 和 分别表示红外和可见外输出特征。
4.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,所述方法还包括:通过鉴别器区分融合结果和原图像,将两个相同的网络结构作为鉴别器,所述鉴别器由四个3×3卷积层组成,前三层卷积层后使用Leaky ReLu作为激活函数,最后一层使用双曲正切函数。
5.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,生成器损失,将其损失LG表示为:LG=λ1Lcontent+λ2Lssim+λ3Ladv (6)其中,LG表达总损失函数,Lcontent表示内容损失,Ladv和Lssim分别表示对抗损失和结构相似性损失,参数λ1、λ2和λ3为平衡参数。
6.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,引入一个强度损失Lint来约束融合图像和原图像之间像素的相似性,强度损失Lint由等式7表示:其中,If表示融合图像、Ivi和Iir分别表示可见光图像和红外图像;||·||1表示L1范数;
Max(Ivi,Iir)表示逐元素最大选择;
引入纹理损失Ltext来辅助强度损失并将其表示为:
其中,表示 表示Sobel算子用于检测图像中的纹理细节,利用它计算图像中的梯度变化;|·|表示取绝对值;max(.)表示最大值;
内容损失Lcontent由强度损失Lint和纹理损失Ltext两部分组成,表示为:Lcontent=Lint+Ltext (9)
定义相似性度量Lssim如下:
Lssim=a(1‑ssim(If,Ivi))+(1‑a)(1‑ssim(If,Iir)) (10)其中,ssim(.)调式两个图像的结构相似性的平均距离,a为平衡参数;xvi和xir分别表示可见光图像和红外图像;If表示融合图像,Ivi和Iir分别表示可见光图像和红外图像;
Ladv表示生成器的损耗,定义为:
7.如权利要求1所述的基于特征差分补偿与融合的红外与可见光图像融合方法,其特征在于,定义2个鉴别器网络的损失函数 和 如下:其中,第一项和第二项分别表示Wasserstein距离估计和梯度惩罚,λ4是正则化参数;
Dir(.)和Dvi(.)分别表示红外光鉴别器和可见光鉴别器;||·||2表示L2范数;N表示图像数量。