1.一种基于智能特征聚类的视频压缩编码方法,其特征在于,包括以下步骤:步骤1、将视频进行预处理后利用深度学习模型对视频进行智能特征提取;
步骤2、采用特征聚类算法对提取出的特征进行聚类,将相似或冗余的特征整合在一起,为后续编码提供更有效的数据结构;
使用结合特征金字塔网络的半监督AP聚类算法进行特征聚类,具体包括以下步骤:使用改进的特征金字塔网络来获得图像不同尺度的特征图,对不同大小的特征图进行融合,获得图像的高级语义特征,识别不同大小、不同实例的目标;
k近邻标记更新策略动态增加标记数据集样本数量;
步骤3、对聚类后的特征集进行编码,通过视觉增强和数据压缩的联合制定来进行视频压缩;
由两个相互关联的组件组成的视觉增强网络(SA‑VENet)来进行视觉增强,优化增强帧的质量和大小;
具体的,使用端到端方式对SA‑VENet网络进行训练,最大限度地提高输入帧的质量,骨干网络由像素洗牌层、卷积层、残差密集块(RDB)和亚像素卷积层组成;
给定一个模糊输入序列{Bt, Bt+1,…,Bt+n},估算一个加法向量表示bt(即模糊残差),以抵消来自Bt的模糊;
压缩模糊残差:压缩后的模糊残余信息 将被添加到Bt中,从而输出视觉效果增强帧 ;
模糊残差被输入一系列卷积和非线性变换层,给定大小为M × N × 3的模糊残差bt,编码器生成大小为M/16 × N/16 × 128的模糊残差表示ut,然后将ut量化为 ,使用因子熵模型进行量化,可以更精确地估计整个数据的概率分布,该概率分布为:,其中N是高斯分布,uti是ut的第i个因子, 和 分别是该因子的均值和方差,k是因子的总数;
解码器输入量化表示并重建模糊残余信息 ,然后将 加入模糊输入Bt,即 ,得到增强帧 ;
视频压缩的目标是最小化给定视频帧Bt的比特数,同时提高Xt的质量,并减少增强帧和重建帧 之间的失真,因此,制定如下优化公式: ;
其中, 和 为超参数,用于控制增强E、失真D和比特率R之间的三向权衡;
{Xt,Xt+1,…,Xt+n} 表示真实值(GT)序列,优化模糊残差 的编码比特数,以及增强帧与对应的GT帧Xt之间的 光度损失,还加入了Bt+bt和Xt之间的 光度损失,这样模糊残差bt自 动编码器 就不会在 时达 到一个局部 极小值,公 式如下所示 :;
其中,R() 表示用于编码表征的比特数,使用密度模型来估算R, 定义为 ,其中s是阶跃衰减参数,用于随着训练的进行保持视觉增强和压缩之间的权衡;
使用一个流细化网络(FIRNet)和一个基于注意力的损失函数,用于有效的运动估计和压缩;
具体的,估计当前增强帧 和之前重建帧 之间的运动,使用一个预训练的光流网络来预测 的初始流;
FIRNet输入初始流 、 和 ,并输出残差流 ,将其添加到初始流中生成细化流;
使用了一个残差密集架构,用三个RDB生成 ;
使用流量自动编码器网络将细化流量信息 编码、量化并重构为 ;
的计算公式如下: ;
的计算公式如下: ,式中||表示通道级联;
使用一种情境感知训练函数,强制FIRNet关注视觉增强区域,根据 的不同区域的增强程度(相对于Bt)对其进行评分,从而生成一个关注图,以便运动细化阶段知道哪些区域需要特别关注;
首先计算误差图 ,的计算公式如下: ;
其定义为增强帧 与相应GT帧Xt之间的均方误差,即 ,是一个大小为M×N的二维张量,其中的值是各通道的平均值,为了避免出现噪声图,使用池化核大小为k×k、步长为k的平均池化层,并为误差图中的每个像素分配了其邻域的相应平均值,即将 分割为大小为k ×k 的 个区域,其中v是一个常数,以确保误差图分布的方差增大,然后,用整数值 ,其中v是一个常数,以确保误差图分布的方差增大;
中较高的值表示仍然有运动伪影的部分,而较低的值表示增强的区域或最初锐利的区域,通过使用 作为注意力权重,提出了一种新的损失,称之为上下文感知损失(LCaL),用于知情的运动细化和压缩,公式如下: ;
其中, ,Wb表示光流映射;
为了补偿伪影,使用运动补偿网络(MCNet)进行进一步处理,MCNet输入光流映射帧、Xt‑1和 并输出运动补偿帧 , 的计算公式如下: ;
步骤4、在解码端,根据编码数据和聚类中心信息,恢复出原始的特征集;
步骤5、利用深度学习模型的重建模块,根据解码后的特征集重建原始视频。
2.根据权利要求1所述的一种基于智能特征聚类的视频压缩编码方法,其特征在于,步骤1具体包括以下步骤:对输入的视频序列进行预处理,包括帧率调整、分辨率缩放,以得到适应后续处理需求的视频数据;
对预处理后的视频数据进行特征提取,包括颜色特征、纹理特征、运动特征;
所述深度学习模型使用卷积神经网络对视频数据进行特征提取,并对提取的特征进行后处理。
3.根据权利要求1或2所述的一种基于智能特征聚类的视频压缩编码方法,其特征在于,步骤4具体包括以下步骤:使用与编码端相同的特征提取方法,将输入的编码数据解码为相应的特征向量,这些特征向量包括颜色、纹理、运动特征;
对于同时包含音频和图像的视频序列,需要将音频特征和图像特征进行融合,以恢复出完整的视频内容。
4.根据权利要求3所述的一种基于智能特征聚类的视频压缩编码方法,其特征在于,步骤5具体包括以下步骤:将量化运动表示的残差表示编码成比特并发送给解码器;
解码器接收量化表示并重建运动信息。