利索能及
我要发布
收藏
专利号: 202511001007X
申请人: 安徽大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,其方法步骤如下:S1、将原始视频帧序列分割为多个网格,每个网格包含连续排列的多个像素空间视频帧,形成网格化数据;

S2、通过编码器将所述网格化数据映射至低维潜空间,生成初始潜空间特征数据;

S3、对初始潜空间特征数据进行编辑,编辑过程包括扩散过程和采样过程,其中扩散过程基于预训练的稳定扩散模型,通过嵌入时间注意力模块以增强像素空间视频帧间时间一致性,并利用自注意力模块增强网格内局部语义一致性;

在采样过程中,对网格布局执行奇偶时间步交替置换策略,以促进跨网格全局一致性,同时根据时间戳阈值动态融合重构分支与编辑分支的注意力图,生成去噪数据;其中所述奇偶时间步交替置换策略的过程具体包括:在采样过程中,在 个时间步内,在奇偶时间步对网格内的像素空间视频帧的布局进行置换,通过将所有网格排成一行,偶数时间步保持原网格布局不动,奇数时间步将各个网格内的像素空间视频帧沿着水平方向向右平移一个帧宽度,末尾像素空间视频帧移至起始位置,下一个偶数时间步恢复原来的布局,个时间步内网格布局奇偶交替置换;

S4、通过解码器将去噪数据解码为像素空间视频帧,得到编辑后的网格化数据,并对编辑后的网格化数据进行拆分重组,生成编辑后的连续视频帧序列。

2.根据权利要求1所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述编码器为变分自编码器,通过变分自编码器中的编码器模块将网格化数据映射至低维潜空间,生成初始潜空间特征数据 , ,其中 表示编码器模块。

3.根据权利要求1所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述嵌入时间注意力模块的过程具体包括:对预训练的稳定扩散模型中的U‑Net网络进行调整,通过嵌入时间注意力模块,用于捕捉像素空间视频帧间的长时依赖关系;

根据初始潜空间特征数据 进行稳定扩散模型的训练,冻结稳定扩散模型中原有的交叉注意力模块,仅对自注意力模块和嵌入的时间注意力模块的权重矩阵进行更新,保留稳定扩散模型对文本指令的泛化能力;

采用与稳定扩散模型相同的目标函数,通过最小化预测噪声与真实噪声的均方误差,迭代优化可训练参数。

4.根据权利要求1所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述自注意力模块增强网格内局部语义一致性的过程具体包括:将初始潜空间特征数据 的维度进行调整,生成适配网格数据 ,用于适配网格分割处理;

将适配网格数据 拆分为多个批次,输入至调整后的U‑Net网络进行噪声预测,其中噪声预测包括自注意力阶段、交叉注意力阶段和时序注意力阶段,其中:自注意力模块中的自注意力阶段用于保持适配网格数据的网格形态,执行网格内部相邻像素空间视频帧的时空交互,确保网格内局部语义一致性;

交叉注意力模块中的交叉注意力阶段用于将适配网格数据拆分为有序帧序列,与目标文本提示的条件信息进行交互;

时间注意力模块中的时序注意力阶段用于对各像素空间视频帧相同空间位置的像素点进行时域建模,完成后恢复网格形态;

合并多个批次以及各个阶段的噪声预测结果,作为噪声预测结果 ,其

中 表示时间步索引,表示条件信息。

5.根据权利要求1所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述动态融合重构分支与编辑分支的注意力图的过程具体包括:预设时间戳阈值,当时间步大于预设时间戳阈值时,将重构分支的交叉注意力图、自注意力图及时间注意力图注入编辑分支,通过局部增强的方式融合重构分支和编辑分支所对应的注意力图;

当时间步小于等于时间戳阈值时,仅保留编辑分支的交叉注意力图、自注意力图及时间注意力图,以响应目标文本的编辑指令,并生成去噪数据 。

6.根据权利要求5所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述去噪数据 的计算公式包括确定性扩散隐式模型的反演公式和确定性扩散隐式模型的采样公式。

7.根据权利要求6所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述确定性扩散隐式模型的反演公式如下:,

其中 和 表示噪声调度系数,用于控制加噪强度的权重参数;通过确定性扩散隐式模型的反演公式,并经过 个时间步,对噪声预测结果 迭代生成含可控噪声的潜空间数据,该迭代过程为 到 。

8.根据权利要求6所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述确定性扩散隐式模型的采样公式如下,在

个时间步内,根据确定性扩散隐式模型的采样公式以及含可控噪声的潜空间数据,逐步迭代生成得到去噪数据 ,其中该迭代过程为 到 。

9.根据权利要求1所述的基于网格布局交替扩散和多注意力控制的视频编辑方法,其特征在于,所述解码包括:利用变分自编码器中的解码器模块将去噪数据 解码到像素空间视频帧,得到编辑后的网格化数据 ,将 拆分重组成有序帧序列的形式,生成编辑后的连续视频帧序列。