利索能及
我要发布
收藏
专利号: 2022106496999
申请人: 湖南师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向全景视频的视点预测方法,其特征在于,包括:

获取目标观众观看全景视频时视点的历史轨迹并转化为热力图;

将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果;

在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息;

将初步预测结果和相似用户的未来信息输入SE‑Unet网络模型,输出用户视点的最终预测结果。

2.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,获取目标观众观看全景视频时视点的历史轨迹并转化为热力图,包括:定义热力图的热值时,目标用户眼睛注视点的热值最高,离注视点越远热值越低,用户视口以外的热值均设为0。

3.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果,包括:所述的seq2seq模型是基于两个独立的三层ConvLSTM作为编码器‑解码器得到。

4.根据权利要求1所述的一种面向全景视频的视点预测方法,其特征在于,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息,包括:在专家数据中筛选出n个与目标用户视点的历史轨迹相匹配的相似用户,n可根据实际需求进行设置,并根据相似度来分配权重,即相似度越高权重越大,按相应的权重进行加权平均计算得到相似用户的未来信息。

5.根据权利要求1所述的一种面向全景视频视点预测方法,其特征在于,将初步预测结果和相似用户的未来信息输入SE‑Unet网络模型,输出用户视点的最终预测结果,包括:SE‑Unet模型是一个深度学习的网络模型,它由一个编码模块、连接模块和一个解码模块组成。

6.根据权利要求5所述的一种面向全景视频的视点预测方法,其特征在于,SE‑Unet模型是由一个编码模块、连接模块和一个解码模块组成,还包括:编码模块包含三个相同结构块的重复应用,结构块按照先后顺序依次是:一个卷积层和一个正线性单元(ReLU)的组合,一共有两个;紧跟其后是SE‑net模块,它用来学习各个通道之间的重要性;最后是批量标准化层(BN)和最大池化层。

7.根据权利要求5所述的一种面向全景视频的视点预测方法,其特征在于,SE‑Unet模型由一个编码模块、连接模块和一个解码模块组成,还包括:连接模块是连接编码模块和解码模块,它是一层卷积和一个校正线性单元(ReLU)的组合。

8.根据权利要求5所述的一种面向全景视频的视点预测方法,其特征在于,SE‑Unet模型是由一个编码模块、连接模块和一个解码模块组成,还包括:解码模块中包含三个结构块,其中前两个结构块相同,按照顺序依次是:一个将特征通道数量减半的反卷积和校正线性单元(ReLU)的组合,再拼接上编码模块中对应的结构块;

最后一个结构块按照顺序依次是:反卷积、校正线性单元(ReLU)和输入批量标准化层(BN)。

9.一种面向全景视频的视点预测的装置,其特征在于,包括:获取模块,获取目标观众观看全景视频时视点的历史轨迹并转化为热力图;

预测模块,将目标用户视点的历史轨迹热力图输入seq2seq模型生成初步预测结果;

筛选模块,在专家数据中寻找与目标用户视点的历史轨迹相匹配的相似用户,得到相似用户的未来信息;

融合预测模块,将初步预测结果和相似用户信息输入SE‑Unet网络模型,输出用户视点的最终预测结果。

10.一种面向全景视频的视点预测的装置,其特征在于,包括:存储器,用于存储计算机程序以及全景视频传输过程中的缓存数据;

处理器,用于执行所述计算机程序时实现如权利要求1至8任意一项所述的面向全景视频视口预测的步骤;

眼动仪,用于实时地采集目标用户在观看全景视频时眼睛注视点的位置信息。

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任意一项所述的面向全景视频的视点预测方法的步骤。