买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于神经和多尺度特征融合的360度视频传输方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于神经和多尺度特征融合的360度视频传输方法及系统

￥31200

专利号： 2024111240163

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于神经和多尺度特征融合的360度视频传输方法，其特征在于，方法包括以下步骤：获取360度视频，对360度视频进行预处理，得到预处理后的360度视频，对预处理后的

360度视频输入至预先建立的时空下采样模型内，输出得到多尺度特征和低分辨率视频帧；

将低分辨率视频帧进行掩码编码，得到处理后的掩码帧，将掩码帧进行重构，得到重建的LR帧；

对重建的LR帧和多尺度特征输入至预先建立的上采样超分辨率模型内，输出得到优化后的超分辨率视频帧；

所述预先建立的上采样超分辨率模型包含多个残差块、卷积层和一个PixelShuffle层，通过卷积层和PixelShuffle层对重建的LR帧进行上采样，以恢复原始视频帧的大小，并将重建的LR帧与服务器端提供的多尺度特征进行融合，再通过卷积将通道数恢复为三个 RGB 通道。

2.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法，其特征在于，所述对360度视频进行预处理为通过对用于广播传输的帧提供标准化数据格式。

3.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法，其特征在于，所述预先建立的时空下采样模型首先对预处理后的360度视频进行预设步长的时序下采样，在空间维度上进行预设倍率的下采样；通过残差块提取预处理后的360度视频内的多尺度特征，通过残差块和二维卷积层对预处理后的360度视频进行空间降采样，得到低分辨率视频帧。

4.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法，其特征在于，所述将低分辨率视频帧进行掩码编码通过输入至基于ViT‑tiny 主干网络的掩码自动编码器网络模型内，并引入管道式掩码方法来遮蔽低分辨率，设置掩码比率，然后获取屏蔽帧并进行编码，然后传输到客户端，客户端上的掩码解码器收到掩码帧后，利用 ViT 主干网的时空联合注意力机制重建视频帧，作为重建的LR帧。

5.根据权利要求1所述的基于神经和多尺度特征融合的360度视频传输方法，其特征在于，视频帧的损失Loss1计算如下：(1)

其中， , , , 分别是原始视频帧，最终重建的超分辨率帧，下采样LR帧和重建LR帧的像素第i处或第j处的值，是与计算损失的权重，是与计算损失的权重，n是原始视频帧与最终重建的超分辨率帧的像素点总数，m是LR帧和重建LR帧的像素点的总数。

6.根据权利要求4所述的基于神经和多尺度特征融合的360度视频传输方法，其特征在于，所述基于ViT‑tiny 主干网络的掩码自动编码器网络模型的训练通过smoothness L1损失公式进行：（2）

其中，和分别是原始视频帧，最终重建的超分辨率帧的像素第i处或第j处的值，为超参数权重。

7.基于神经和多尺度特征融合的360度视频传输系统，其特征在于，包括：

视频帧提取模块，用于获取360度视频，对360度视频进行预处理，得到预处理后的360度视频，对预处理后的360度视频输入至预先建立的时空下采样模型内，输出得到多尺度特征和低分辨率视频帧；

视频帧重建模块，将低分辨率视频帧进行掩码编码，得到处理后的掩码帧，将掩码帧进行重构，得到重建的LR帧；

质量提升模块，用于对重建的LR帧和多尺度特征输入至预先建立的上采样超分辨率模型内，输出得到优化后的超分辨率视频帧；

质量提升模块内预先建立的上采样超分辨率模型包含多个残差块、卷积层和一个PixelShuffle层，通过卷积层和PixelShuffle层对重建的LR帧进行上采样，以恢复原始视频帧的大小，并将重建的LR帧与服务器端提供的多尺度特征进行融合，再通过卷积将通道数恢复为三个 RGB 通道。

8.根据权利要求7所述的基于神经和多尺度特征融合的360度视频传输系统，其特征在于，所述视频帧提取模块对360度视频进行预处理为通过对用于广播传输的帧提供标准化数据格式；

视频帧提取模块内预先建立的时空下采样模型首先对预处理后的360度视频进行预设步长的时序下采样，在空间维度上进行预设倍率的下采样；通过残差块提取预处理后的360度视频内的多尺度特征，通过残差块和二维卷积层对预处理后的360度视频进行空间降采样，得到低分辨率视频帧；

视频帧重建模块内将低分辨率视频帧进行掩码编码通过输入至基于ViT‑tiny 主干网络的掩码自动编码器网络模型内，并使用管式屏蔽来遮蔽低分辨率，设置掩码比率，然后获取屏蔽帧并进行编码，然后传输到客户端，客户端上的掩码解码器收到掩码帧后，利用 ViT 主干网的时空联合注意力机制重建视频帧，作为重建的LR帧；

质量提升模块内视频帧的损失计算如下：

(1)

其中， , , , 分别是原始视频帧，最终重建的超分辨率帧，下采样LR帧和重建LR帧的像素第i处或第j处的值，是与计算损失的权重，是与计算损失的权重，n是原始视频帧与最终重建的超分辨率帧的像素点总数，m是LR帧和重建LR帧的像素点的总数；

视频帧重建模块内基于ViT‑tiny 主干网络的掩码自动编码器网络模型的训练通过smoothness L1损失公式进行：（2）

其中，和分别是原始视频帧，最终重建的超分辨率帧的像素第i处或第j处的值，为超参数权重。

9.一种终端设备，包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序，其特征在于，所述存储器中存储有能够在处理器上运行的计算机程序，所述处理器加载并执行计算机程序时，采用了权利要求1至6中任一项所述的基于神经和多尺度特征融合的360度视频传输方法。