买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于智能特征聚类的视频压缩编码方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于智能特征聚类的视频压缩编码方法

￥14000

专利号： 2024100202810

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于智能特征聚类的视频压缩编码方法，其特征在于，包括以下步骤：步骤1、将视频进行预处理后利用深度学习模型对视频进行智能特征提取；

步骤2、采用特征聚类算法对提取出的特征进行聚类，将相似或冗余的特征整合在一起，为后续编码提供更有效的数据结构；

使用结合特征金字塔网络的半监督AP聚类算法进行特征聚类，具体包括以下步骤：使用改进的特征金字塔网络来获得图像不同尺度的特征图，对不同大小的特征图进行融合，获得图像的高级语义特征，识别不同大小、不同实例的目标；

k近邻标记更新策略动态增加标记数据集样本数量；

步骤3、对聚类后的特征集进行编码，通过视觉增强和数据压缩的联合制定来进行视频压缩；

由两个相互关联的组件组成的视觉增强网络(SA‑VENet)来进行视觉增强，优化增强帧的质量和大小；

具体的，使用端到端方式对SA‑VENet网络进行训练，最大限度地提高输入帧的质量，骨干网络由像素洗牌层、卷积层、残差密集块(RDB)和亚像素卷积层组成；

给定一个模糊输入序列{Bt, Bt+1，…，Bt+n}，估算一个加法向量表示bt（即模糊残差），以抵消来自Bt的模糊；

压缩模糊残差：压缩后的模糊残余信息将被添加到Bt中，从而输出视觉效果增强帧；

模糊残差被输入一系列卷积和非线性变换层，给定大小为M × N × 3的模糊残差bt，编码器生成大小为M/16 × N/16 × 128的模糊残差表示ut，然后将ut量化为，使用因子熵模型进行量化，可以更精确地估计整个数据的概率分布，该概率分布为：，其中N是高斯分布，uti是ut的第i个因子，和分别是该因子的均值和方差，k是因子的总数；

解码器输入量化表示并重建模糊残余信息，然后将加入模糊输入Bt，即，得到增强帧；

视频压缩的目标是最小化给定视频帧Bt的比特数，同时提高Xt的质量，并减少增强帧和重建帧之间的失真，因此，制定如下优化公式：；

其中，和为超参数，用于控制增强E、失真D和比特率R之间的三向权衡；

{Xt，Xt+1，…，Xt+n} 表示真实值（GT）序列，优化模糊残差的编码比特数，以及增强帧与对应的GT帧Xt之间的光度损失，还加入了Bt+bt和Xt之间的光度损失，这样模糊残差bt自动编码器就不会在时达到一个局部极小值，公式如下所示：；

其中，R() 表示用于编码表征的比特数，使用密度模型来估算R，定义为，其中s是阶跃衰减参数，用于随着训练的进行保持视觉增强和压缩之间的权衡；

使用一个流细化网络(FIRNet)和一个基于注意力的损失函数，用于有效的运动估计和压缩；

具体的，估计当前增强帧和之前重建帧之间的运动，使用一个预训练的光流网络来预测的初始流；

FIRNet输入初始流、和，并输出残差流，将其添加到初始流中生成细化流；

使用了一个残差密集架构，用三个RDB生成；

使用流量自动编码器网络将细化流量信息编码、量化并重构为；

的计算公式如下：；

的计算公式如下：，式中||表示通道级联；

使用一种情境感知训练函数，强制FIRNet关注视觉增强区域，根据的不同区域的增强程度（相对于Bt）对其进行评分，从而生成一个关注图，以便运动细化阶段知道哪些区域需要特别关注；

首先计算误差图，的计算公式如下：；

其定义为增强帧与相应GT帧Xt之间的均方误差，即，是一个大小为M×N的二维张量，其中的值是各通道的平均值，为了避免出现噪声图，使用池化核大小为k×k、步长为k的平均池化层，并为误差图中的每个像素分配了其邻域的相应平均值，即将分割为大小为k ×k 的个区域，其中v是一个常数，以确保误差图分布的方差增大，然后，用整数值，其中v是一个常数，以确保误差图分布的方差增大；

中较高的值表示仍然有运动伪影的部分，而较低的值表示增强的区域或最初锐利的区域，通过使用作为注意力权重，提出了一种新的损失，称之为上下文感知损失(LCaL)，用于知情的运动细化和压缩，公式如下：；

其中，，Wb表示光流映射；

为了补偿伪影，使用运动补偿网络(MCNet)进行进一步处理，MCNet输入光流映射帧、Xt‑1和并输出运动补偿帧，的计算公式如下：；

步骤4、在解码端，根据编码数据和聚类中心信息，恢复出原始的特征集；

步骤5、利用深度学习模型的重建模块，根据解码后的特征集重建原始视频。

2.根据权利要求1所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤1具体包括以下步骤：对输入的视频序列进行预处理，包括帧率调整、分辨率缩放，以得到适应后续处理需求的视频数据；

对预处理后的视频数据进行特征提取，包括颜色特征、纹理特征、运动特征；

所述深度学习模型使用卷积神经网络对视频数据进行特征提取，并对提取的特征进行后处理。

3.根据权利要求1或2所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤4具体包括以下步骤：使用与编码端相同的特征提取方法，将输入的编码数据解码为相应的特征向量，这些特征向量包括颜色、纹理、运动特征；

对于同时包含音频和图像的视频序列，需要将音频特征和图像特征进行融合，以恢复出完整的视频内容。

4.根据权利要求3所述的一种基于智能特征聚类的视频压缩编码方法，其特征在于，步骤5具体包括以下步骤：将量化运动表示的残差表示编码成比特并发送给解码器；

解码器接收量化表示并重建运动信息。