利索能及
我要发布
收藏
专利号: 201810653610X
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于神经网络的视频预测编码方法,其特征在于,包括如下步骤:S1、输入大小为64×64的编码树单元,通过贝叶斯分类器对其进行粗判断,判断是否采用SKIP模式,若是,则判定当前编码树单元不往下划分,直接得到编码树单元的编码单元大小决策,否则,执行S2;

S2、通过三支神经网络并行对编码树单元的深度进行编码单元分块决策,得到编码单元的分块结果;

S3、由S2中得到的编码单元分块结果得到编码单元大小决策;

S4、根据S1或S3中得到的编码单元大小决策进行预测编码,得到编码结果;

所述三支神经网络的决策方法如下:

64×64的编码树单元在第一支神经网络依次通过卷积层、bottleneck层、池化层和全连接层得到深度为0的编码单元的分块结果;

64×64的编码树单元等分为4个32×32的编码单元,4个32×32的编码单元依次输入第二支神经网络,通过卷积层、bottleneck层、池化层和全连接层后得到每个32×32的编码单元的划分结果,即得到深度为1的编码单元的分块结果;

64×64的编码树单元等分为16个16×16的编码单元,16个16×16的编码单元依次输入第三支神经网络,通过卷积层和全连接层后得到每个16×16的编码单元的划分结果,即得到深度为2的编码单元的分块结果;

所述S2中的三支神经网络采用训练数据集进行了训练,训练时:先对图像数据进行0‑1正则化;然后再正则化后的图像输入第一支神经网络,正则化后的图像4等分后输入第二支神经网络,正则化后的图像16等分后输入第三支神经网络,对三支神经网络进行训练。

2.根据权利要求1所述的一种基于神经网络的视频预测编码方法,其特征在于,所述S2中的三支神经网络的前两支基于残差卷积神经网络,第三支基于卷积神经网络,所述三支神经网络分别对编码单元进行深度为0、1和2的划分决策判断。

3.根据权利要求2所述的一种基于神经网络的视频预测编码方法,其特征在于,所述三支神经网络中的前两支神经网络均包括卷积层、bottleneck层、全连接层和池化层,第三支神经网络包括卷积层和全连接层。

4.根据权利要求1所述的一种基于神经网络的视频预测编码方法,其特征在于,所述S2中的三支神经网络进行训练时,在正则化之前进行预处理,即对训练数据集中的图像进行数据增广的预处理。

5.根据权利要求4所述的一种基于神经网络的视频预测编码方法,其特征在于,对训练数据集中的图像进行数据增广的预处理具体包括四种图像变换,所述四种图像变换具体是:

a、水平、垂直翻转图像;

b、180°旋转图像;

c、随机改变图像亮度和饱和度;

d、向图像加入随机光噪声。