1.一种基于上下文优化与时间递归的视频显著性预测方法,其特征在于,包括如下步骤:S1:获取待预测视频序列,选取16帧连续帧,输入到训练好的视频显著性区域预测网络中;
S2:该预测网络采用Video swin transformer主干网络的编码器,以提取显著性特征;
S3:通过上下文优化模块,增强该特征的感受野和表现能力;该模块包含通道重分配子模块、感受野扩大子模块和空间增强子模块;
通道重分配子模块用于重新分配通道间权重,增强通道特征表达能力;该子模块首先对特征沿空间和时间维度进行最大池化和平均池化,再将其结果通过全连接层来学习调整权重,再通过相乘和残差连接以得到调整后的特征,其具体公式如下:CW=σ(FC(Avgpool(F3))+FC(Maxpool(F3))),Fcw=CW×F3+F3,
感受野扩大子模块用于增强特征感受野,更好地产生预测所需的上下文信息;该子模块在特征上进行连续的两次池化核为3x3的最大池化操作,并将原始特征和每次最大池化的结果拼接起来,经过卷积调整通道后,得到扩大感受野后的特征,其具体公式如下:F′=Maxpool3×3(Fcw),
Fout=Conv([Fcw,F′,Maxpool3×3(F′)]),空间增强子模块用于增强显著性区域的权重,抑制无关区域的影响;该子模块首先对特征沿通道和时间维度进行最大池化和平均池化,再将其结果拼接起来通过卷积和Sigmoid操作得到空间权重,将特征与该权重相乘和残差连接得到增强后的特征,其具体公式如下:SE=σ(Conv([Maxpool(Fout),Avgpool(Fout)])),F=SE×Fout+Fout,
S4:进一步通过显著性传递机制来利用先前帧的显著性信息以促进当前帧的预测;该机制由显著性传递模块实现,该模块可分为空间注意力融合子模块和ConvGRU子模块组成;
空间注意力融合子模块基于显著性图的连续性,利用之前的显著性信息来定位当先显著性区域;该子模块首先拼接隐藏状态和输入特征,然后分别通过卷积层、tanh函数、卷积层和Sigmoid函数,得到通道数为1的空间注意权重,与输入特征相乘得到调整后的特征,其具体公式如下:X′t=Xt×σ(Conv(tanh(Conv([Xt,Ht‑1])))),ConvGRU子模块用于建模连续帧的显著性关系,该模块计算方式如下:zt=σ(Conv([X′t,Ht‑1])),
rt=σ(Conv([X′t,Ht‑1])),
其中Ht既是用于本帧显著性区域预测的增强后特征,又是传入下一帧的隐藏状态;
S5:将增强后的特征传入解码器中,进行求和与上采样,恢复至原始帧尺寸,便可得到最终的显著性图。
2.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法,其特征在于,所述的主干网络采用去除第四阶段的Video swin transformer网络,其产生的特征为其中T=16,C=96,H,W为原始视频的高宽。
3.如权利要求1所述的基于上下文优化与时间递归的视频显著性预测方法,其特征在于,所述视频显著性区域预测网络的训练步骤包括:搭建视频显著性区域预测网络;
构建训练集和验证集,包含视频帧序列和对应的显著性图;
将训练集输入到视频显著性区域预测网络中,获取其输出的显著性图,将该显著性图与真实显著性图进行损失函数计算并进行反向传播;
多代训练训练该预测网络,并再验证集进行评估;当验证集损失最小时,保存网络权重,即可获取训练好的视频显著性区域检测网络。