买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于MAE预训练模型的视频编码帧内预测方法和系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于MAE预训练模型的视频编码帧内预测方法和系统

￥13950

专利号： 202310189730X

申请人：中南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于MAE预训练模型的视频编码帧内预测方法，其特征在于，所述基于MAE预训练模型的视频编码帧内预测方法包括：获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式；其中，获取每个预测单元的最优预测模式包括如下步骤：根据预测单元相邻的已预测单元获得初始化候选列表，并获取所述已预测单元的重建信息；

初始化所述预测单元的多种预测模式，计算每种预测模式的第一率失真损失；

根据所述已预测单元的重建信息，通过编码器获得预测块的尺寸和已重建块像素信息；

根据所述预测块的尺寸和已重建块像素信息，通过训练好的MAE预测模型，获得预测图像，并根据所述预测图像计算获得第二率失真损失；

根据所述第一率失真损失和所述第二率失真损失，更新加入所述训练好的MAE预测模型后的初始化候选列表，获得更新后的候选列表；

计算所述更新后的候选列表中每种预测模式的实际损失，并根据所述实际损失获得所述预测单元的最优预测模式；

根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。

2.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，通过如下方式训练所述MAE预测模型：从多种预测块的尺寸中选定预测块的预设尺寸，并根据选定的所述预测块的预设尺寸制作图像样本集；

将所述图像样本集输入至MAE预训练模型，并采用第一损失函数进行第一次训练，获得第一次训练后的MAE预训练模型；

将所述第一次训练后的MAE预训练模型采用第二损失函数进行第二次训练，获得训练好的MAE预测模型。

3.根据权利要求2所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，所述第一损失函数表示为：其中，表示所述第一损失函数，表示目标值，表示估计值，表示图像样本总数，表示第个图像样本。

4.根据权利要求2所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，通过如下方式获得所述第二损失函数：在所述第二次训练中初始化变换矩阵为：

根据所述初始化变换矩阵，对重建图像中每个4x4的块分别进行对应像素矩阵的行变换和列变换为：根据每个4x4的块的像素矩阵的行变换和列变换后的值获得所述第二损失函数：其中，表示像素矩阵，表示所述第二损失函数，表示每个4x4的块的像素矩阵的行变换和列变换后的值，表示当前4x4的块在输入图像中的位置，表示输入块的尺寸与4x4的块的比值。

5.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，所述根据所述第一率失真损失和所述第二率失真损失，更新加入所述训练好的MAE预测模型后的初始化候选列表，获得更新后的候选列表，包括：从所述多种预测模式中每种预测模式对应的第一率失真损失和所述训练好的MAE预测模型对应的第二率失真损失中选取多个率失真损失最小的模式；

根据所述多个率失真损失最小的模式，获得更新后的候选列表。

6.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，所述计算所述更新后的候选列表中每种预测模式的实际损失，并根据所述实际损失获得所述预测单元的最优预测模式，包括：通过熵编码计算所述更新后的候选列表中每种预测模式的实际损失；

选取所述实际损失最低的预测模式作为所述预测单元的最优预测模式。

7.根据权利要求1所述的基于MAE预训练模型的视频编码帧内预测方法，其特征在于，在所述根据所述实际损失获得所述预测单元的最优预测模式之后，所述基于MAE预训练模型的视频编码帧内预测方法还包括：在原编码存储空间中增加一位模式编码存储空间。

8.一种基于MAE预训练模型的视频编码帧内预测系统，其特征在于，所述基于MAE预训练模型的视频编码帧内预测系统包括：数据获取模块，用于获取编码待预测图像的多个编码单元、每个编码单元中多个预测单元以及所述每个编码单元中所有预测单元的最优预测模式；所述数据获取模块包括候选列表初始化子模块、第一计算子模块、信息获取子模块、第二计算子模块、候选列表更新子模块以及最优预测模式获取子模块，其中：所述候选列表初始化子模块，用于获取预测单元相邻的已预测单元的重建信息，并根据所述已预测单元获得初始化候选列表；

所述第一计算子模块，用于初始化所述预测单元的多种预测模式，计算每种预测模式的第一率失真损失；

所述信息获取子模块，用于根据所述已预测单元的重建信息，通过编码器获得预测块的尺寸和已重建块像素信息；

所述第二计算子模块，用于根据所述预测块的尺寸和已重建块像素信息，通过训练好的MAE预测模型，获得预测图像，并根据所述预测图像计算获得第二率失真损失；

所述候选列表更新子模块，用于根据所述第一率失真损失和所述第二率失真损失，更新加入所述训练好的MAE预测模型后的初始化候选列表，获得更新后的候选列表；

所述最优预测模式获取子模块，用于计算所述更新后的候选列表中每种预测模式的实际损失，并根据所述实际损失获得所述预测单元的最优预测模式；

帧内预测模块，用于根据获得的所有预测单元的最优预测模式完成所述每个编码单元的帧内预测。

9.一种基于MAE预训练模型的视频编码帧内预测设备，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于MAE预训练模型的视频编码帧内预测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于MAE预训练模型的视频编码帧内预测方法。