买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于跨模态动态协同的可见光与红外图像融合方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于跨模态动态协同的可见光与红外图像融合方法

面议

专利号： 2025110248285

申请人：浙江理工大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，包括以下步骤：

S1、构建可见光编码器以提取可见光图像的多尺度纹理特征；

S2、构建红外编码器以提取红外图像的热辐射连续性特征；

S3、采用异构注意力协同融合模块对可见光图像的多尺度纹理特征与红外图像的热辐射连续性特征进行跨模态特征对齐与融合，获取融合特征图；

S4、将融合特征图输入至动态门控多尺度解码器，通过动态门控多尺度解码器分层融合多尺度纹理特征与热辐射连续性特征并解码生成融合图像；所述动态门控多尺度解码器执行以下分层融合过程：①在1/8分辨率层级：对输入至动态门控多尺度解码器中的融合特征图执行4×4转置卷积上采样；将上采样特征与红外编码器输出的对应层级的热辐射连续性特征拼接；拼接后的特征再通过3×3卷积、ReLU激活函数、1×1卷积和Sigmoid激活函数生成对应层级的空间‑通道联合注意力权重矩阵，以对特征拼接的两种特征进行加权求和，输出该层级的融合特征；

②在1/4分辨率层级：采用双线性插值对1/8分辨率层级的融合特征进行2倍上采样；将上采样特征与可见光编码器中的基础特征图进行特征拼接；拼接后的特征再通过3×3卷积、ReLU激活函数、1×1卷积和Sigmoid激活函数生成对应层级的空间‑通道联合注意力权重矩阵，以对特征拼接的两种特征进行加权求和，输出该层级的融合特征；

③在1/2分辨率层级：将1/4分辨率层级的融合特征与可见光编码器的原始输入进行通道维度拼接；通过1×1卷积进行通道压缩，将通道数压缩至1；采用Sigmoid激活函数生成归一化后的融合图像；

S5、使用公开数据集，采用两阶段训练优化机制，以最小化多维度损失函数为优化目标，通过梯度自适应机制动态调整可见光编码器、红外编码器、异构注意力协同融合模块、动态门控多尺度解码器的模型参数。

2.根据权利要求1所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述可见光编码器包含预处理层、多分支空洞卷积网络和跨阶段动态权重融合机制模块；其中，预处理层包括3×3标准卷积层和ReLU激活函数；多分支空洞卷积网络包括三个具有不同膨胀率的并行空洞卷积支路，其中的第一空洞卷积支路采用膨胀率为2的3×3空洞卷积，对应5×5感受野；第二空洞卷积支路采用膨胀率为3的5×5空洞卷积，对应13×13感受野；第三空洞卷积支路采用膨胀率为5的7×7空洞卷积，对应31×31感受野；跨阶段动态权重融合机制模块包括动态权重融合模块、跨层级特征补偿机制和深度可分离卷积模块；动态权重融合模块包括全局平均池化层、全连接层、Softmax归一化层和特征融合层；跨层级特征补偿机制包括上采样层和1×1卷积层；深度可分离卷积模块包括5×5深度卷积层和1×1逐点卷积层；

可见光图像对应的单通道灰度图像输入至可见光编码器中，首先经过预处理层生成基础特征图；基础特征图分别经过多分支空洞卷积网络中的三个并行空洞卷积支路提取三支路特征；三支路特征经过动态权重融合模块后生成融合后的深层特征图；在跨层级特征补偿机制中，深层特征图通过上采样层后与基础特征图进行通道维度拼接，再通过1×1卷积层后得到复合特征；复合特征经过深度可分离卷积模块后输出可见光图像的多尺度纹理特征图。

3.根据权利要求1所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述红外编码器包括编码前处理模块、通道连续性保持模块、下采样层和倒残差块组；其中，编码前处理模块包括3×3标准卷积层和ReLU激活函数；通道连续性保持模块包括分组卷积层、通道重排操作模块和轻量级通道注意力机制，分组卷积层包括多组3×3卷积层，通道重排操作模块包括维度重塑与转置运算，轻量级通道注意力机制包括全局平均池化层与两级全连接层，第一级全连接层后连接有ReLU激活函数，第二级全连接层后连接有Sigmoid激活函数；下采样层采用深度可分离卷积结构，包括3×3深度卷积层和1×1逐点卷积层；倒残差块组包括三个串联的倒残差块，每个倒残差块包含扩展层、深度卷积层和压缩层，扩展层采用1×1卷积和ReLU6激活函数，深度卷积层采用3×3深度可分离卷积和ReLU6激活函数，压缩层采用1×1卷积和线性层；

单通道红外灰度图像输入至红外编码器中，依次经过编码前处理模块、分组卷积层、通道重排操作模块和轻量级通道注意力机制后获取各个通道权重，依据各个通道权重将通道重排操作模块输出的特征图进行加权求和后输出深层次特征图，该深层次特征图经过下采样层后输入至倒残差块组中的第一个倒残差块，将第一个倒残差块的输出特征图与其输入特征图进行相加后输入至第二个倒残差块，第二个倒残差块的输出特征图与其输入特征图进行相加后输入至第三个倒残差块，第三个倒残差块输出的特征图即为红外图像的热辐射连续性特征图。

4.根据权利要求1所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述异构注意力协同融合模块具体通过如下步骤进行跨模态特征对齐与融合：S31、可变形特征对齐：对于可见光图像的多尺度纹理特征，采用可变形卷积网络生成动态偏移量场，利用生成的偏移量场动态调整红外图像的热辐射连续性特征的空间采样位置，通过双线性插值实现热辐射连续性特征与多尺度纹理特征的亚像素级空间对齐；

S32、跨模态互补性权重生成：计算多尺度纹理特征与空间对齐后的热辐射连续性特征在各通道维度上的互相关矩阵，将初始跨模态注意力图与通道维度上的互相关矩阵进行逐元素相乘，通过1×1卷积降维、全连接层和Sigmoid激活函数生成动态融合权重矩阵；

S33、动态门控特征融合：根据动态融合权重矩阵对可见光图像的多尺度纹理特征和红外图像的热辐射连续性特征进行加权求和，得到融合特征图。

5.根据权利要求4所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述可变形卷积网络采用双层级联的3×3卷积层构成，第一层卷积层用于提取可见光图像的多尺度纹理特征的空间梯度分布，第二层卷积层输出与3×3卷积核采样点数量及方向维度相匹配的偏移量场。

6.根据权利要求4所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述步骤S31中，亚像素级空间对齐后的热辐射连续性特征，其表达式为：；

式中，表示位置p处的对齐后的红外图像的热辐射连续性特征，表示第k个采样点的可变形卷积核权重，N表示3×3卷积核采样点数量，表示原始的红外图像的热辐射连续性特征，p表示目标特征图的空间坐标，表示第k个采样点的基准偏移量，表示可见光图像的多尺度纹理特征导出的第k个采样点的偏移量。

7.根据权利要求1所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述步骤S5中，两阶段训练优化机制具体包括：在第一阶段，冻结可见光编码器和红外编码器的模型参数，仅对异构注意力协同融合模块和动态门控多尺度解码器进行训练；在第二阶段，解冻全部模型参数进行端到端联合微调；

其中，在每阶段的训练过程中，均以最小化多维度损失函数为优化目标，将该多维度损失函数沿动态门控多尺度解码器、异构注意力协同融合模块、可见光编码器和红外编码器进行反向传播，调整对应的模型参数，并同步更新权重矩阵。

8.根据权利要求7所述的基于跨模态动态协同的可见光与红外图像融合方法，其特征在于，所述多维度损失函数由像素级损失、结构相似性损失和梯度损失的加权复合构成；

所述像素级损失用于计算融合图像与源图像之间的像素误差；

所述结构相似性损失用于利用像素值对源图像和融合图像之间进行结构相似度评价；

所述梯度损失通过计算融合图像和输入的可见光与红外图像在特征梯度上的差异获取。