利索能及
我要发布
收藏
专利号: 2024111240163
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于神经和多尺度特征融合的360度视频传输方法,其特征在于,方法包括以下步骤:获取360度视频,对360度视频进行预处理,得到预处理后的360度视频,对预处理后的

360度视频输入至预先建立的时空下采样模型内,输出得到多尺度特征和低分辨率视频帧;

将低分辨率视频帧进行掩码编码,得到处理后的掩码帧,将掩码帧进行重构,得到重建的LR帧;

对重建的LR帧和多尺度特征输入至预先建立的上采样超分辨率模型内,输出得到优化后的超分辨率视频帧;

所述预先建立的上采样超分辨率模型包含多个残差块、卷积层和一个PixelShuffle层,通过卷积层和PixelShuffle层对重建的LR帧进行上采样,以恢复原始视频帧的大小,并将重建的LR帧与服务器端提供的多尺度特征进行融合,再通过卷积将通道数恢复为三个 RGB 通道。

2.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法,其特征在于,所述对360度视频进行预处理为通过对用于广播传输的帧提供标准化数据格式。

3.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法,其特征在于,所述预先建立的时空下采样模型首先对预处理后的360度视频进行预设步长的时序下采样,在空间维度上进行预设倍率的下采样;通过残差块提取预处理后的360度视频内的多尺度特征,通过残差块和二维卷积层对预处理后的360度视频进行空间降采样,得到低分辨率视频帧。

4.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法,其特征在于,所述将低分辨率视频帧进行掩码编码通过输入至基于ViT‑tiny 主干网络的掩码自动编码器网络模型内,并引入管道式掩码方法来遮蔽低分辨率,设置掩码比率,然后获取屏蔽帧并进行编码,然后传输到客户端,客户端上的掩码解码器收到掩码帧后,利用 ViT 主干网的时空联合注意力机制重建视频帧,作为重建的LR帧。

5.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法,其特征在于,视频帧的损失Loss1计算如下:(1)

其中, , , , 分别是原始视频帧,最终重建的超分辨率帧,下采样LR帧和重建LR帧的像素第i处或第j处的值, 是 与 计算损失的权重, 是 与 计算损失的权重,n是原始视频帧与最终重建的超分辨率帧的像素点总数,m是LR帧和重建LR帧的像素点的总数。

6.根据权利要求4所述的基于神经和多尺度特征融合的360度视频传输方法,其特征在于,所述基于ViT‑tiny 主干网络的掩码自动编码器网络模型的训练通过smoothness L1损失公式 进行:(2)

其中, 和 分别是原始视频帧,最终重建的超分辨率帧的像素第i处或第j处的值,为超参数权重。

7.基于神经和多尺度特征融合的360度视频传输系统,其特征在于,包括:

视频帧提取模块,用于获取360度视频,对360度视频进行预处理,得到预处理后的360度视频,对预处理后的360度视频输入至预先建立的时空下采样模型内,输出得到多尺度特征和低分辨率视频帧;

视频帧重建模块,将低分辨率视频帧进行掩码编码,得到处理后的掩码帧,将掩码帧进行重构,得到重建的LR帧;

质量提升模块,用于对重建的LR帧和多尺度特征输入至预先建立的上采样超分辨率模型内,输出得到优化后的超分辨率视频帧;

质量提升模块内预先建立的上采样超分辨率模型包含多个残差块、卷积层和一个PixelShuffle层,通过卷积层和PixelShuffle层对重建的LR帧进行上采样,以恢复原始视频帧的大小,并将重建的LR帧与服务器端提供的多尺度特征进行融合,再通过卷积将通道数恢复为三个 RGB 通道。

8.根据权利要求7所述的基于神经和多尺度特征融合的360度视频传输系统,其特征在于,所述视频帧提取模块对360度视频进行预处理为通过对用于广播传输的帧提供标准化数据格式;

视频帧提取模块内预先建立的时空下采样模型首先对预处理后的360度视频进行预设步长的时序下采样,在空间维度上进行预设倍率的下采样;通过残差块提取预处理后的360度视频内的多尺度特征,通过残差块和二维卷积层对预处理后的360度视频进行空间降采样,得到低分辨率视频帧;

视频帧重建模块内将低分辨率视频帧进行掩码编码通过输入至基于ViT‑tiny 主干网络的掩码自动编码器网络模型内,并使用管式屏蔽来遮蔽低分辨率,设置掩码比率,然后获取屏蔽帧并进行编码,然后传输到客户端,客户端上的掩码解码器收到掩码帧后,利用 ViT 主干网的时空联合注意力机制重建视频帧,作为重建的LR帧;

质量提升模块内视频帧的损失计算如下:

(1)

其中, , , , 分别是原始视频帧,最终重建的超分辨率帧,下采样LR帧和重建LR帧的像素第i处或第j处的值, 是 与 计算损失的权重, 是 与 计算损失的权重,n是原始视频帧与最终重建的超分辨率帧的像素点总数,m是LR帧和重建LR帧的像素点的总数;

视频帧重建模块内基于ViT‑tiny 主干网络的掩码自动编码器网络模型的训练通过smoothness L1损失公式 进行:(2)

其中, 和 分别是原始视频帧,最终重建的超分辨率帧的像素第i处或第j处的值,为超参数权重。

9.一种终端设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述存储器中存储有能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了权利要求1至6中任一项所述的基于神经和多尺度特征融合的360度视频传输方法。