1.基于时空自注意力单步扰动的视频预测防御方法,其特征在于:步骤(1)对原始视频进行采样获得原始视频帧序列,构建层次局部时空编码模块,将原始视频帧序列输入层次局部时空编码模块,获得层次局部时空特征;具体是:(1‑1)对视频进行每秒K帧采样,K=5~10,获取T+T′个视频帧,得到原始视频帧序列其中,T为输入的视频帧数量,T′为预测视频帧的数量,100≤T≤200,0<T′≤200,Xt表示第t个视频帧,表示实数域,H和W分别表示视频帧的高度和宽度,3表示RGB通道数;
(1‑2)将原始视频帧序列 中的前T个视频帧 分解成不重叠的图像块,得到分解后的输入视频帧图像块序列上标patch表示图像块,下标1:T表示在原视频帧序列截取出从第1帧到第T帧的视频帧序列,Xi表示第i个视频帧Patch(·)将输入视频帧分割成p·p个互不重叠的图像块,C=3·p·p,p=16;
(1‑3)将输入视频帧图像块序列 进行下采样,得到下采样的视频帧序列, 上标Down表示下采样,
二维卷积Conv2D(·)输入通道数为C,输出通道数为C′,卷积核尺寸为3×3,步长为2,填充大小为1;LayerNorm(·)为层归一化,输入的通道数为C′,SiLU(·)为Sigmoid函数加权线性单元,表示为 H′和W′为下采样后视频帧的高和宽;
(1‑4)将下采样的视频帧序列 按时间顺序均等分为4个视频帧序列分别代表包含视频帧序号为[1,U],[U+1,2U],[2U+1,3U],[3U+1,4U]的视频帧序列,其中 表示向上取整;如果输入帧序列能被4整除,则4U=T;如果输入帧序列不能被4整除,则随机复制视频帧在其原位置之后作为填充,直至输入帧序列数能够被4整除为止;
(1‑5)构建层次局部时空编码模块:由两个三维卷积层、两个层归一化层、两个SiLU激活函数、残差连接构成;将视频帧序号为[1,U],[U+1,2U],[2U+1,3U],[3U+1,4U]的视频帧序列 输入局部时空特征提取模块,得到对应的局部时空特征
其中,f1
(·)=SiLU(LayerNorm(Conv3D(·))),三维卷积Conv3D(·)输入通道数为C′,输出通道数为2×C′,卷积核尺寸为3×3×3;f2(·)=SiLU(LayerNorm(Conv3D(·))),三维卷积Conv3D(·)输入通道数为2×C′,输出通道数为C′,卷积核尺寸为3×3×3;将F1:U、FU+1:2U、F2U+1:3U和F3U+1:4U输入局部时空特征提取模块,得到增强局部时空特征并按照时间维度做合并处理,得到包含视频帧序号为[1,2U],[2U+1,4U]的增强局部时空特征(1‑6)合并增强局部时空特征 内的相邻图像块,将每四个不重叠的大小为 的相邻图像块合并为一个大小为 的图像块,分别获得包含视频帧序号为[1,
2U]和[2U+1,4U]的合并后局部时空特征集合 其中Reshape(·)为维度重构函数,在保持张量中元素不变的情况下按顺序重新构建维度;
(1‑7)重复步骤(1‑5)~(1‑6),将局部时空特征集合 进行合并,得到层次局部时空特征 其中H″=H′×4,W″=W′×4,步骤(2)构建时空自注意力编码模块,将层次局部时空特征作为输入,获得时空自注意力编码特征;所述的时空自注意力编码模块由一个时间位置编码模块、一个二维卷积多头注意力层、一个局部时空特征提取模块、两个残差连接层和两个层归一化层组成;具体步骤是:(2‑1)构建时间位置编码模块,定义时间间隔向量 将时间间隔向量g输入时间位置编码层PosEmbed(·)并扩展得到时间位置编码PosEmbed(·)的输入词典长度为T+T′,嵌入向量的维度为C″,输出嵌入时间位置矩阵下标emb表示嵌入,其偶数维度的值为 奇数维度的值为 Yemb(pos,2i)表示嵌入时间间隔矩阵Yemb在(pos,2i)位置的值,pos和2i分别为各自维度的坐标, 为正整数集;
Expand(·)是扩展函数,其输入嵌入时间间隔矩阵 通过维度复制操作输出时间位置编码
沿时间维度截取前T个视频帧的时间位置编码
获得带有时间位置编码的层次局部时空特征
(2‑2)构建二维卷积多头注意力模块:将带有时间位置编码的层次局部时空特征作为输入,先经过一个卷积层和一个层归一化层得到初始化的查询张量Q、关键值张量K、值张量V的值,即
二维卷积Conv2D(·)输入通道数为C′,输出通道数为C′,卷积核尺寸为1×1,Reshape(·)为维度重构函数,在保持张量中元素不变的情况下,将输入的维度 的通道划分为不同的注意力头数,重构为 注意力头数heads=8;
(2‑3)重构带有时间位置编码的层次局部时空特征 的维度,得到维度重构后的层次局部时空特征 将维
re
度重构后的层次局部时空特征 作为Q,K,V输入,A=Attention(F ,re re
F ,F ),得到注意力权重矩阵 其中
Softmax(·)为激活函数,用于对当前时刻空间维度信息编码的注意力系数进行归一化,Nv为值张量v的维度;
(2‑4)二维卷积多头注意力模块的输出为F′=f2DMHA(A),二维卷积多头注意力模块输出函数f2DMHA(·)=SiLU(LayerNorm(Conv2D(unReshape(·)))),其中unReshape(·)为反向维度重构函数,输入为注意力权重矩阵 输出为维度重构后的注意力权重矩阵 二维卷积Conv2D(·)的输入通道数为C″,输出通道数为C″,卷积核尺寸为1×1;
经过二维卷积多头注意力模块后,得到初步时空自注意力特征F′=2DMHA(Q,K,V),其中2DMHA(·,·,·)为二维卷积多头注意力模块;
(2‑5)对带有时间位置编码的层次局部时空特征 和初步时空自注意力特征 进行残差连接,并通过层归一化,得到归一化后的时空自注意力特征(2‑6)将归一化后的自注意力特征 输入与(1‑5)相同的局部时空特征提取模块,FST=f1f2((F″)),得到增强时空自注意力特征 下标ST表示时空;f1(·)=SiLU(LayerNorm(Conv3D(·))),三维卷积Conv3D(·)输入通道数为C″,输出通道数为2×C″,卷积核尺寸为3×3×3,f2(·)=SiLU(LayerNorm(Conv3D(·))),三维卷积Conv3D(·)输入通道数为2×C″,输出通道数为C″,卷积核尺寸为3×3×3;
(2‑7)将增强时空自注意力特征 和归一化后的全局时空自注意力特征进行残差连接,并通过层归一化操作LayerNorm(F″+FST),得到增强时空自注意力特征(2‑8)重复步骤(2‑1)~(2‑7),堆叠Nencode=3~5块局部时空注意力编码子模块,每一块的输入为上一块的输出,每一块的输出为归一化后的时空自注意力特征,记为表示第l块的归一化后的增强时空自注意力特征,最终第四块时空注意力编码模块输出时空自注意力特征
步骤(3)构建并行时空解码器,将时空自注意力特征作为输入,输出为预测视频帧序列;所述的并行时空解码器由一个时序位置查询模块、两个二维卷积多头注意力模块、两个局部时空特征提取模块组成;具体步骤是:(3‑1)构建时序位置查询模块,截取步骤(2‑1)中时间位置编码 的预测段 并重构维度, 得到重构维度后时间位
置编码的预测段 Reshape(·)为维度重构函数,将输入的维度的通道划分为不同的注意力头数,并重构为
(3‑2)将重构维度后时间位置编码的预测段 输入到二维卷积多头注意力模块, 得到时间位置编码预测段的
自注意力特征
(3‑3)对时间位置编码的预测段 和时间位置编码预测段的自注意力特征 进行残差连接,并通过层归一化操作得到归一化后的时间位置编码预测段的自注意力特征
(3‑4).将时空自注意力特征 和归一化时间位置编码预测段的自注意力特征 重构维度,即
获得重构维度后的时空自注意力特征
和重构维度后的归一化时间位置编码输出部分自注意力特征上标re表示重构;
(3‑5).将重构维度后的时空自注意力特征 和重构维度后的归一化时间位置编码输出部分自注意力特征 输入到二维卷积多头注意力模块,即 得到解码自注意力特征
下标de表示解码;
(3‑6)将解码自注意力特征 和时间位置编码输出部分自注意力特征进行残差连接,并通过组归一化,F′de=LayerNorm(Fde+Y′T′+1:T+T′)得到归一化后的解码自注意力特征(3‑7)将归一化后的解码自注意力特征 输入局部时空特征提取模块得到解码的时空特征
(3‑8)将解码的时空特征 和归一化后的解码自注意力特征进行残差连接,并通过组归一化得到归一化后的解码自注意力特征LayerNorm(·)为层归一化,输入的通道数为C″;
(3‑9)将归一化后的输出自注意力特征 进行上采样操作,得到输出特征
ConvTranspose2D(·)为逆卷积操作,内层ConvTranspose2D(·)卷积核为3×3,步长为2,填充为1,输入通道为C″,输出通道为C″,外层的ConvTranspose2D(·)卷积核为1×1,输入通道为C″,输出通道为C′;
(3‑10)重复步骤(3‑1)~(3‑9),堆叠Nde=5~8个并行时空解码子模块,构建并行时空解码器,每一块的输入为上一块的输出,最终输出为解码输出特征(3‑11)将解码输出特征 进行去图像块化操作,得到预测的视频帧序列 unpatch(·)为图像块合并
操作,将互不重叠的图像块合并成一个视频帧,下标t′表示预测的输出视频帧训练的索引;
步骤(4)构建时序单步扰动生成器,将原始视频帧序列、预测视频帧序列和真实的待预测视频帧序列作为输入,输出对抗视频帧序列并将其作为步骤(1)的输入,重复步骤(1)~(3)并输出为鲁棒预测视频帧序列;具体是:(4‑1)构建时序单步扰动生成器,将原始视频输入帧 作为输入,随机初始化的噪声 并加在原始视频输入的第一帧,生成初始化对抗视频帧序列(4‑2)将初始化对抗视频帧序列 作为输入,重复步骤(1‑2)~(3‑11),获得第一帧对抗训练预测的输出视频帧序列 并获得步骤(2‑8)中每一层的对抗训练时空自注意力特征 将第一帧对抗训练预测的输出视频帧序列 与步骤(1‑1) 中的真实视频帧计算均方误差损失
将视频帧序列 中的前T个视频帧 作为输入,重复步骤(1‑2)~(2‑8),获得步骤(2‑8)中每一块的归一化时空自注意力特征 利用其与对抗训练时空自注意力特征 计算特征对齐损 失,即其中||·||2表示L2范数;构建全局损失函数权衡系数λ>0;
(4‑3)对全局损失函数 求解关于原始输入视频帧序列 的梯度,生成第一帧的单步对抗扰动 其中sign(·)为符号函数,返回输入张量各个数值的符号且和输入维度相同,▽为梯度符号,控制对抗扰动大小的超参数∈=8/255,得到第一帧的对抗视频帧为X′1=X1+η1,更新对抗视频帧序列(4‑4)在生成第i帧的对抗扰动时,将第i‑1帧的对抗扰动 作为第i帧的初始化噪声,得到第i帧的初始化对抗视频帧序列 重复步骤(4‑2)~(4‑3)得到所有T个输入帧的对抗视频帧序列(4‑5)将对抗视频帧序列 作为层次局部时空编码模块的输入,重复步骤(1‑2)~(3‑11),得到鲁棒的预测视频序列步骤(5)利用随机梯度下降算法优化由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器和时序单步扰动生成器组成的视频预测训练模型,对新的视频帧序列依次通过步骤(1)~(3)得到对应的预测视频帧序列;具体是:(5‑1).构建由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器、时序单步扰动生成器构成的视频预测模型,利用随机梯度下降法优化上述视频预测训练模型;
(5‑2).对于新的视频通过采样得到M个视频帧
100≤M≤200,并输入上述优化的视频预测训练模型,重复步骤(1)~(3),最终并行输出指定数量的预测视频帧 作为视频预测结果,其中0<N≤
200是预测视频帧的数量,m和n分别为采样得到的视频帧和预测视频帧的索引。