利索能及
我要发布
收藏
专利号: 2024101554709
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的可见光与红外视频融合编码方法,其特征在于,包括如下步骤:Step 1、采集同一场景下的可见光视频流和红外视频流;

Step 2、对Step 1中采集的可见光视频流和红外视频流进行预处理,包括去噪、对比度增强操作,并采用生成对抗网络对视频进行编码;

Step 3、采用自适应编码损伤修复算法提升编码性能,步骤为采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐,同时采用时空注意力融合模块进行特征融合,最后引入自适应模块构成整体网络结构;其中,采用基于金字塔结构的可变形卷积对齐模块在特征向量尺度进行特征对齐的步骤为:Step 3.1‑1、使用通过不同尺度的卷积层从每个视频帧中提取多尺度特征,并创建一个特征金字塔,每个级别代表不同的空间分辨率,用于捕捉不同尺度的动态变化;

Step 3.1‑2、在每个级别上,应用可变形卷积,允许网络动态的调整卷积核的形状,适应帧间的运动和变化;

Step 3.1‑3、将对齐的多尺度特征重新结合,构建对齐特征表示;

Step 3.1‑4、将每一帧的特征进行变形对齐,记为 给定U个采样位置的可变形卷积核,将 和 分别表示第 个位置的权重和预指定的偏移量,在每个位置的对齐特征由以下公式得到:其中, 表示连续帧的个数,

表示第 个时刻的输入帧, 表示对齐特征, 表示可变形卷积中学习到的偏移量,表示对偏移量的修正和调制; 和 由相邻帧和参考帧的连接特征预测:式中, 表示由多个卷积层组成的一

般函数, 表示连接操作;Step 3.1‑5、采用金字塔处理和级联细化,采用卷积滤波器对金字塔层的特征进行2倍的下采样,得到第 层的特征 ,同时,偏移量使用2倍的上采样偏移量,对齐特征使用 层的对齐特征进行预测,其公式如下:;式中, 表示放大

因子2,DConv为可变形卷积; 采用时空注意力融合模块进行特征融合的步骤为:Step 3.2‑1、采用时空注意力融合模块从可见光视频流和红外视频流的视频帧中提取特征,对于每一帧 相似距离 的计算公式为:式中, 和 为两

个嵌入;Step 3.2‑2、将图片按照逐像素的方式与原始对齐的特征 相乘,采用一个额外的卷积层来聚合这些特征,其公式如下:引入自适应模块构成整体网络结构的过程为:整个网络从参数上划分为固定参数和自适应参数,固定参数经训练后保持不变,自适应参数随不同编码内容做自适应调整;在编码阶段,首先经HEVC编码得到编码码流与重建视频 其中, 为输入,表示在 之后的第 个帧;初始化count=0,将重建视频输入自适应算法结构,固定非自适应参数,反向传播更新自适应参数,同时count+1;在解码阶段,首先使用HEVC解码器解码得到重建视频 加载自适应模块参数到修复网络;按照编码码流处理全部视频,输出经自适应编码损伤修复后的视频;Step 4、通过融合编码算法对经Step 

3编码损伤修复过的可见光视频和红外视频进行融合编码,生成融合视频流。

2.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流分别进行去噪操作的步骤为:Step 2.1‑1、对可见光视频流通过高斯函数作为权重对邻域内的像素进行加权平均,高斯滤波器的核 定义为: 式中, 为高斯核的标准差;

Step 2.1‑2、对红外视频流采用小波变换去噪,设 为小波变换的系数,去噪后的系数 通过阈值处理得到:式中, 为阈值,根据信号特性及噪声水平确定;(x,y)表示位置, 表示在位置(x,y)的小波变换的系数。

3.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中对可见光视频流和红外视频流进行对比度增强操作的步骤为:Step 2.2‑1、将可见光视频流和红外视频流图像分别划分为多个区块,对于每个区块,计算其直方图 式中, 为区块 中像素点的位置,当 为像素值时其值为1,否则为0;Step 2.2‑2、对每个直方图的灰度级 ,计算累积分布函数: 式中, 为灰度值 在区块 的直方图中的像素数,其中, 表示取不同的灰度值, 为区域中的像素总数;

Step  2 .2‑ 3、使用累积分布函数 重 新映射区域中的像素 值:式中, 是原始图像在区域

的坐标位置 处的像素值, 是均衡化后的新像素值, 是灰度级数量。

4.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step 2中采用生成对抗网络对视频进行编码的步骤为:Step 2.3‑1、生成对抗网络包括生成器和判别器两部分,生成器包含编码器和解码器;

首先模型接收一个随机噪声向量 ,并将生成数据表示为 ,其中生成器 以随机噪声向量 作为输入,通过参数 生成视频帧 ,将视频帧 输入到生成器 ,结果反馈一个标量用于表示输入数据是真实数据的概率,其表示为 ,判别器 通过计算真实数据和生成数据的均值与协方差矩阵进行比对,评估生成的视频帧 是接近真实还是虚假的数据,通过参数 进行判别;其中比对公式为:式中, 表示矩阵对角线元素

的综合,即矩阵的迹; 和 分别表示真实的视频帧和生成的视频帧, 表示均值;若结果数值FID小于10,表示生成数据与真实数据接近; 表示真实图像的协方差矩阵; 表示生成图像的协方差矩阵;Step 2.3‑2、生成对抗网络的训练过程通过以下目标函数描述:式中,生

成器 用于最小化这个函数,判别器 用于最大化这个函数;

表示判别器正确识别真实数据的概率; 表示判别器正确

识别生成数据的概率。

5.根据权利要求1所述的基于深度学习的可见光与红外视频融合编码方法,其特征在于,所述Step4中进行融合编码,生成融合视频流的步骤为:Step 4.1、使用卷积神经网络从可见光视频和红外视频流中提取特征,其公式为:式中, 为特征, 和 分别为权重和偏置, 为激活函数, 为输入;Step 4.2、对可见光视频和红外视频流进行特征级加权融合,经过加权融合后采用逆卷积技术从融合的特征重建视频帧,加权融合公式为:式中, 为融合系数;Step 4.3、通过

训练深度神经网络损失函数来优化融合效果,其公式为:

式中, 代表损失函数的值, 为模型的输出,

是模型基于输入数据给出的估计或推断; 是由数据集得到的,代表每个输入数据点的实际标签或结果; 代表数据集中样本的总数。