利索能及
我要发布
收藏
专利号: 2022112471467
申请人: 西安工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.使用时空Transformer网络进行视频修复的方法,其特征在于,该方法按照以下步骤实施:步骤1:构建视频修复网络STTTN,所述视频修复网络STTTN包括编码器、相关嵌入模块、粗糙低频特征转换器、细化高频特征转移器和解码器;使用预修复方法预先处理视频帧得到预修复视频帧,所述视频帧包括参考帧与输入帧;

步骤2:在编码器Encoder上添加基本区域归一化RN‑B,并将预修复后的输入帧、预修复后的参考帧以及未预修复的参考帧分别输入进编码器,分别得到查询Q,关键值K,内容V;

步骤3:将各视频帧的查询Q与关键值K输入进相关嵌入模块RE获得特征块相关性W与位置索引 ,其中W记录了当前帧与其他所有帧中最相关特征块的相关性, 记录了当前帧与其他所有帧中最相关特征块的位置索引;

步骤3中的相关嵌入模块中,首先,将查询Q和关键值K分别展开成小块patches,记为和 ,通过点乘 和 来计算它们的相似性:其中 表示 和 之间的相似性,T表示转置操作; 和 分别代表查询和关键值中的第i个小块和第j个小块, 、 ;

步骤4:将各视频帧的位置索引 与内容V输入粗糙低频特征转换器CLFT,得到纹理特征图T;粗糙低频特征转换器的转换过程为:首先,将通过粗糙低频特征转换器将不同时间域上的值中的低频特征与输入帧相关联,计算粗糙的低频特征转移图P,其中低频转移特征图P中的第i个位置的位置索引 是根据计算公式得到的: ,其中 表示的是求输入值 的最大索引值,代表的是相关性;

低频特征转移图P中的每个值 表示当前帧在所有参考帧上与输入帧的第i个位置最相关的位置索引,具体计算过程通过torch.max()函数返回值的第二项,得到最大值对应的指标;在获得最相关的位置索引 后,只需要依次取内容V的第 个位置索引就可以得到纹理特征图T,其中T的每个位置都包含参考帧中最相似位置的高频纹理特征,获得输入帧纹理特征图T后,然后将其用于细化高频特征转移步骤5:将步骤1修复后的预处理视频帧输入进深度神经网络DNN得到特征值F,然后将特征值F与由粗糙低频特征转换器得到的纹理特征图T一起输入进细化高频特征转移器RHFT进行融合;

步骤6:最后再将步骤5融合后的视频帧的信息输入解码器Decoder,融合后的视频帧通过解码器解码获得修复后的视频帧。

2.根据权利要求1所述的使用时空Transformer网络进行视频修复的方法,其特征在于,步骤1所述视频帧预修复的过程为:使用快速行进算法Fast Marching Method,对位于点附近、边界法线附近和边界轮廓上的像素赋予更多权重,一旦一个像素被修复,它将使用快速行进的方法移动到下一个最近的像素,从而对视频帧修复。

3.根据权利要求2所述的使用时空Transformer网络进行视频修复的方法,其特征在于,步骤2所述编码器上添加基本区域归一化的过程为:通过引入基本区域归一化RN‑B,根据遮挡将空间像素划分为不同的区域,然后在不同的区域计算均值和方差。

4.根据权利要求1所述的使用时空Transformer网络进行视频修复的方法,其特征在于,步骤5中,细化高频特征转移器的操作步骤为:步骤5.1:从 中计算出一个特征块相关性W来表示纹理特征图T中每个位置的传递纹理特征的置信度,获取特征块相关性W的具体计算过程是通过torch.max()函数返回值的第一项来获取 的最大值,其中特征块相关性W记录了最相关特征块的具体相关性:;

步骤5.2:通过粗糙低频特征转换器获得多帧图像在时域上的纹理特征图T,再将纹理特征图T与深度神经网络DNN得到特征值F进行Concat连接操作再进行一次卷积Conv运算,然后将连接后的结果点乘特征块相关性W;

步骤5.3:再将步骤5.2的计算结果与由深度神经网络DNN得到特征值F相加,其中深度神经网络DNN是由多层卷积和残差连接组成,卷积核为3*3,步长和填充为1;上述运算可以表示为以下公式:其中,F表示将预修复的输入帧输入进深度神经网络得到的特征值,Conv、Concat和⊙分别表示卷积、连接运算和点积, 是输入帧结合参考帧的时空纹理输出的特征。

5.根据权利要求1所述的使用时空Transformer网络进行视频修复的方法,其特征在于,步骤6中,在解码器中插入的可学习的区域归一化RN‑L用于自动检测视频帧是否存在遮挡。