买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于离散余弦变换的视频目标分割对抗攻击方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于离散余弦变换的视频目标分割对抗攻击方法

￥14000

专利号： 2022104815627

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-21

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于：首先获取视频数据集合、像素级目标类别矩阵与预训练的视频目标分割模型，然后进行如下操作：步骤(1)对视频进行均匀采样，获得视频帧序列将其输入到预训练视频目标分割模型，获得原始视频帧语义特征Zt；

步骤(2)构建视频目标运动感知模块，将视频帧序列作为输入，获得运动向量O′t；

步骤(3)构建语义权重量化模块，引入初始化的语义权重梯度张量与运动向量一并作为输入，获得语义权重Qt；

步骤(4)构建语义离散余弦筛选模块，将语义权重Qt与视频帧语义特征Zt作为输入，获得对抗性语义特征步骤(5)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，使用交叉熵损失函数迭代优化对抗性语义特征，获得优化的对抗性语义特征集合步骤(6)将优化的对抗性语义特征集合输入视频目标分割模型中间层的后一层，并经过后续网络层，获得被攻击后的视频目标分割结果。

2.如权利要求1的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(1)具体是：(1‑1)对视频进行每秒5～10帧的均匀采样获取T个视频帧，得到视频帧序列和真实掩膜序列 Xt表示第t个视频帧，Yt为第t个视频帧对应的真实掩膜，T为视频帧数目，表示实数域，H、W分别表示视频帧的高度、宽度，3表示RGB通道数；

(1‑2)将视频帧序列中的每个视频帧Xt依次输入到由残差卷积神经网络(如ResNet)组成的预训练视频目标分割模型中，在模型的中间层获得对应的原始视频帧语义特征中间层即模型总层数的一半向上取整的第l层卷积；其中H′、W′、C′分别为视频帧语义特征的高度、宽度和通道数，Φl(·)为预训练视频目标分割模型第l层卷积前的所有网络结构。

3.如权利要求2的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(2)具体是：(2‑1)视频目标运动感知模块由FlowNet模块、一个二维卷积层以及运动函数组成，所述的FlowNet模块为由多个卷积层组成的的光流提取网络，将视频帧序列输入至FlowNet，获得所有相邻两帧视频之间的光流集合 Mt表示第t个帧视频与第t+1个帧视频的光流，当t＝T，MT由全0初始化补全；

(2‑2)将光流集合输入下采样函数，对每个光流Mt进行下采样M′t＝Interpolate(Mt)，获得下采样光流集合 M′t表示第t个帧视频与第t+1个帧视频的下采样光流，Interpolate(·)为下采样函数将光流Mt维度从H×W×2变为H′×W′×2；

(2‑3)将下采样光流集合输入二维卷积，对每个下采样光流M′t进行卷积M″t＝Conv2D(M′t)，得到多通道光流集合 M″t表示第t个帧视频与第t+1个帧视频的多通道光流，Conv2D(·)为二维卷积，其输入通道数为2，输出通道数为C′，卷积核尺寸为1×1；

(2‑4)随机初始化运动向量集合 Ot为第t个帧视频

Xt对应的随机初始化运动向量，将随机初始化运动向量Ot与多通道光流M″t依次输入运动函数Motion(Ot,M″t)＝Sigmoid(Ot⊙M″t)，获得运动向量 ⊙为逐元素乘积，Sigmoid(·)为Sigmoid激活函数，将变量映射到0,1之间。

4.如权利要求3的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(3)具体是：构建语义权重量化模块由语义权重量化函数组成，初始化全1的语义权重梯度矩阵语义权重矩阵并与运动向量O′t输入语义权重量化函数获得语义权重

其中α为扰动系数其大小设置为2.0/255，Φ(Xt)为预训练视频目标分割模型对第t个帧视频的预测掩膜，为更新后的语义权重梯度矩阵表示交叉熵损失函数，Softmax(·)指Softmax函数其作用为对变量进行归一化。

5.如权利要求4的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(4)具体是：(4‑1)构建语义离散余弦筛选模块由离散余弦变换函数、反离散余弦变换函数和阈值函数组成，将获得的第1～T个原始视频帧语义特征Zt依次输入离散余弦变换函数，获得频域语义特征 Cosine(·)表示离散余弦变换函数；

(4‑2)将语义权重Qt中每个元素qk依次输入阈值函数获得语义筛选矩阵 k表示语义权重Qt中的第k个元素，β为一个大于0的阈值系数；

(4‑3)将语义筛选矩阵与频域语义特征Z′t进行逐元素乘积获得筛选频域语义特征(4‑4)将筛选频域语义特征输入反离散余弦变换函数，获得对抗性语义特征InverseCosine(·)表示反离散余弦变换函数。

6.如权利要求5的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(5)的具体是：(5‑1)将对抗性语义特征输入到预训练的视频目标分割模型中间层之后所有网络结构Φl+(·)，获得预测掩膜中间层即为第l层卷积；

(5‑2)计算预测掩膜与视频帧Xt的真实掩膜Yt的交叉熵损失通过反向传播获得语义权重的梯度(5‑3)固定由视频目标运动感知模块、语义权重量化模块、语义离散余弦筛选模块构成的语义攻击网络参数，通过随机梯度下降法对语义权重梯度矩阵H′t进行更新，获得优化的语义权重梯度H″t；

(5‑4)将优化的语义权重梯度H″t按照步骤(4)获得初始对抗性语义特征上标n表示第n次迭代优化；

(5‑5)将每次迭代获得的初始对抗性语义特征保留,获得初始对抗性语义特征集合N表示总迭代优化次数；

(5‑6)将第1～T个视频帧Xt对应的原始语义特征Zt和对应的初始对抗性语义特征集合依次输入约束函数获得优化的对抗

性语义特征集合为每个视频帧Xt对应的优化的对抗

性语义特征，其中||·||p为Lp范数，p∈{2,∞}，ε∈{128/255,8/255}为约束Lp范数的一个阈值。

7.如权利要求6的基于离散余弦变换的视频目标分割对抗攻击方法，其特征在于，步骤(6)具体是：将优化的对抗性语义特征集合输入预训练视频目标分割模型中间层后的网络结构Φl+ (·)进行对抗攻击，输出攻击后的最终视频目标分割结果Y′t为第t个视频帧对应的分割结果。