1.一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,步骤如下:
步骤1、对MFNet数据集中1569幅图像进行归一化处理,将像素大小统一为H×W,H表示长度,W表示宽度;将统一尺寸后的图像按照784/393的比例划分为训练数据集和测试数据集,对训练数据集进行数据增强构成网络训练数据集;转入步骤2;
步骤2、构建多模态高效融合网络:
所述多模态高效融合网络包括:可见光编码网络、热图像编码网络、跨模态全局特征描述模块、浅层多模态特征聚合模块、深层多模态特征聚合模块、解码网络;其中,可见光编码网络、热图像编码网络均由在ImageNet数据集上预训练的Transformer网络构成,作为提取特征的编码网络;跨模态全局特征描述模块用于校准多模态特征信息;浅层多模态特征聚合模块用于聚合浅层多模态特征信息;深层多模态特征聚合模块用于聚合深层多模态特征信息;解码网络由ALL‑MLP模块构成,用于接收编码网络特征信息并对不同尺度的特征图进行特征重建;转入步骤3;
步骤3、利用网络训练数据集对多模态高效融合网络进行训练,得到训练好的多模态高效融合网络模型:
S31、将可见光编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的可见光特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/
32),将其中前三个阶段对应的特征为浅层可见光特征,第四个阶段的特征为深层可见光特征;相应地,将热图像编码网络特征提取划分为四个阶段,对应每个阶段提取相应的四个不同尺度的热图像特征,分别为(H/4)×(W/4)、(H/8)×(W/8)、(H/16)×(W/16)、(H/32)×(W/
32),将其中前三个阶段对应的特征为浅层热图像特征,第四个阶段的特征为深层热图像特征;转入S32;
S32、将前三个阶段不同尺度的浅层可见光特征和浅层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将第四个阶段得到的深层可见光特征与深层热图像特征输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块输出层得到深层校准可见光图像特征和深层校准热图像特征;转入S33;
S33、将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,转入S34;
S34、将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和S32中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,转入S35;
S35、将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络,转入步骤4;
步骤4、将测试数据集输入到训练好的多模态高效融合网络模型,输出测试集中每个样本对应的预测结果,测试训练好的多模态高效融合网络模型的准确率;
S32中,将S31中前三个阶段不同尺度的可见光特征和热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到浅层可见光局部描述特征和浅层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到浅层可见光校准特征和浅层热图像校准特征;并将前三个阶段得到的浅层可见光校准特征和浅层热图像校准特征分别与相应阶段相同尺度的浅层可见光特征和浅层热图像特征进行相加,并传输到特征提取网络的下一个阶段进行下一个尺度特征信息的提取;将S32中第四个阶段得到的深层可见光特征与深层热图像特征并行输入到跨模态全局特征描述模块,从跨模态全局特征描述模块的局部多头关系聚合器得到深层可见光局部描述特征和深层热图像局部描述特征,从跨模态全局特征描述模块的输出层得到深层校准可见光图像特征和深层校准热图像特征,具体如下:首先,构建一个局部多头关系聚合器LocalMHRA:每个头包含一个乘法器,将每组通道的通过线性变换生成上下文的序列块Vb和序列块亲和力关系 进行相乘,再通过Concat操作将每个头的信息进行拼接,公式表示如下:式中,b为通道组数,Xi为锚序列块,Xj为局部邻域Ωi的任一序列块, 为可学参数矩阵,(i‑j)为第i个节点和第j个节点的相对位置;
然后,将可见光编码网络的前三个阶段中第d个阶段的浅层可见光特征drgb输入到局部多头关系聚合器LocalMHRA中得到可见光局部描述特征MHRA(drgb);将对应的热图像编码网络的前三个阶段中第d个阶段的浅层热图像特征dthermal输入到局部多头关系聚合器LocalMHRA中得到热图像局部描述特征MHRA(dthermal);将浅层可见光局部描述特征MHRA(drgb)和浅层热图像局部描述特征MHRA(dthermal)拼接得到浅层多模态局部描述特征Ms,将Ms压缩得到跨模态通道描述Sr,t:式中, K表示特征数量,Np表示第p个特征的空间维度;2c表示通道数
量,nK表示第K个特征;
将跨模态通道描述Sr,t输入到多层感知机,得到可见光图像特征的预测zrgb和热图像特征的预测zthermal,利用这两种预测对可见光模态的第d个阶段的浅层可见光特征drgb和热图像模态的第d个阶段的浅层热图像特征dthermal重新校准,得到第d个阶段浅层可见光校准特征 和浅层热图像校准特征 公式表示如下:式中δ(·)表示Sigmod函数,⊙表示逐通道相乘操作;
最后,将前三个阶段中每个阶段得到的校准后的浅层可见光图像特征与未校准的可见光图像特征分别相加,并输入到可见光图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完;相应地,将前三个阶段中每个阶段得到的校准后的浅层热图像特征与未校准的热图像特征分别相加,并输入到热图像特征提取网络对应的下一个阶段继续进行特征提取,逐阶段进行,直至前三个阶段做完;
同理,将第四个阶段的深层可见光图像特征和深层热图像特征,输入到局部多头关系聚合器LocalMHRA,分别得到深层可见光局部描述特征MHRA(frgb)和深层热图像局部描述特征MHRA(fthermal),将其进行拼接得到深层多模态局部描述特征Mf,再通过压缩、重新校准,得到深层校准可见光图像特征 和深层校准热图像特征S33中,将S32中的前三个阶段得到的浅层可见光局部描述特征和浅层热图像局部描述特征,分别并行输入到浅层特征聚合模块提取到前三个阶段不同尺度的浅层聚合特征,将前三个阶段的不同尺度的浅层聚合特征通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征,具体如下:S33‑A、利用多模态交错稀疏自注意力模块,提取交错稀疏自注意力特征Z:首先利用步骤3中的浅层多模态局部描述特征M,并使用排列函数Permute对浅层融合特征M进行交错排列,得到交错排列特征Mp=Permute(M);然后,将Mp划分为N个分区, 且每个分区大小相等,独立地将自注意力应用于每个分区并获得更新的分区特征;最后,合并所有更新后的分区特征,得到交错稀疏自注意力特征Z;
S33‑B、将交错稀疏自注意力输出特征Z通过卷积操作和批归一化层获得可见光模态与热图像模态的串联特征MCBN:MCBN=Conv(BN(Z))
式中Cony表示卷积操作,BN表示正则化操作;
利用Sobel卷积计算可见光模态的第d个阶段的浅层可见光特征drgb的可见光梯度幅值Rgra和热图像模态的第d个阶段的浅层热图像特征dthermal的热图像梯度幅值Tgra,用公式表示如下:式中 代表水平方向上梯度信息, 表示垂直方向上的梯度信息;
S33‑C、利用串联特征MCBN可见光梯度幅值Rgra以及热图像梯度幅值Tgra得到第d个阶段中使用浅层特征聚合模块的输出特征,即浅层聚合特征Skipd:Skipd=MCBN+Rgra+Tgra
S33‑D、将浅层聚合特征Skipd通过跳跃连接的方式传输到解码网络,并对不同尺度的特征信息进行上采样,得到像素大小为(H/4)×(W/4)的浅层解码特征;
S34中,将S32中第四个阶段得到的深层可见光局部描述特征和深层热图像局部描述特征,并行输入到深层特征聚合模块得到深层聚合特征,将深层聚合特征和步骤4中的深层校准可见光图像特征和深层校准热图像特征进行相加,并输入到解码网络进行上采样得到像素尺度大小为(H/4)×(W/4)的深层解码特征,具体如下:S34‑A、利用对称金字塔交错注意力机制提取多模态对称交错注意力融合特征:将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)进行不同尺度的平均池化操作,分别生成a张可见光金字塔特征图和a张热图像金字塔特征图,表达式如下:式中AvgPool表示平均池化层, 表示a张不同尺度的可见光金字塔特征图,表示a张不同尺度的热图像金字塔特征图;再将不同尺度可见光金字塔特征图的特征向量进行拼接,通过线性变换获得可见光模态的键和值;将不同尺度热图像金字塔特征图的特征向量进行拼接,通过线性变换获得热图像模态的键和值,表达式如下:式中KR,VR表示可见光图像的Key向量和Value向量,KT,VT表示热图像的Key向量和Value向量;最后直接从输入的深层可见光图像描述特征MHRA(frgb)的特征图得到可见光图像查询QR,从深层热图像描述特征MHRA(fthermal)的特征图中得到热图像查询QT,利用KR、VR、KT、VT、QR、QT,进行交错注意力计算,构成对称金字塔交错注意力模块,输出可见光对称交错注意力特征Orgb、热图像对称交错注意力特征Othermal,公式表达如下:OS=concat(Orgb,Othermal)
式中,T表示转置,dk表示缩放因子,k表示通道维度,Softmax为指数归一化操作,oS表示可见光图像模态和热图像模态对称交错注意力融合特征;
S34‑B、利用多模态跨通道交流机制得到多模态通道交互通信特征:首先将深层可见光描述特征MHRA(frgb)和深层热图像描述特征MHRA(fthermal)分别进行展平操作得到可见光模态的特征向量图节点 和热图像模态的特征向量图节点score(i,j)=Softmax(sr,t)
式中,i,j表示不同节点, 分别表示不同节点特征信息的平均输出, 是
和 每个模态特征映射中展平向量的第ele个元素,n表示节点数,h表示第h个像素在高度维度的位置,w表示第w个像素在宽度维度的位置,sr,t表示负平方距离,以避免每个模态节点与其他节点进行过多的通信,使模态特征信息更加多样化和互补,score(i,j)表示注意力响应分数,将节点的最终计算输出定义为:式中, 表示消息传递模块的通道输出;
将通道输出特征 进行全连接操作,将其大小转换为和对称交错注意力融合特征OS相同的大小,转换后的通道输出特征记为Ofc;
S34‑C、将对称金字塔交错注意力模块的输出特征对称交错注意力融合特征OS和多模态跨通道交流模块的输出特征Ofc的模块进行相加,经过卷积操作和批归一化处理与深层可见光输出特征 和深层热图像特征 进行相加,得到深层聚合模块的深层聚合特征,用公式表示如下:S34‑D、将深层聚合特征Skip4传输到解码器网络并进行上采样操作,得到像素大小为(H/4)×(W/4)的深层解码特征。
2.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于:a=4。
3.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于,S35中,将S33、S34中输出的浅层解码特征和深层解码特征进行拼接并经过一个多层感知网络进行通道降维操作,计算得到的输出特征与标签间的交叉熵损失,并以此对此网络的网络参数进行更新,最终获得训练好的网络,具体如下:式中 为模型输出的样本预测值,y为标签值,l表示第l个样本,L为样本总数,v为类别,V表示类别总数。
4.根据权利要求1所述的一种基于多模态图像融合的微光夜视场景理解方法,其特征在于:d={1、2、3}。