1.一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:针对包含目标对象的视频,执行以下步骤,获得分割出目标对象的视频目标掩模:步骤1:针对包含目标对象的视频,获得视频包括的各视频图像帧;并基于对视频中目标对象的分割标注,获得每个视频图像帧对应的光流估计图像;
步骤2:针对各视频图像帧、以及每个视频图像帧对应的光流估计图像,利用预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型,获得各视频图像帧分别对应的分割出目标对象的图像目标掩模,进而获得分割出目标对象的视频目标掩模;
其中,无监督视频目标分割模型包括双流CNN骨干网络模块、频域全局滤波模块、多尺度特征提取模块、残差优化模块、上采样解码模块,频域全局滤波模块分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征,具体执行以下过程,获得各阶段分别对应的第一特征:步骤A1:针对双流CNN骨干网络模块输出的第k阶段的外观特征Ak与运动特征Mk进行特征提取,经过1×1卷积和激活函数模块对外观特征Ak与运动特征Mk得到特征Ak′与Mk′,具体公式为:Ak′=σ(conv(Ak),
Mk′=σ(conv(Mk),
其中, 表示激活函数,conv表示1×1卷积,Ak′表示外观特征Ak对应的特征提取后的特征,Mk′表示运动特征Mk对应的特征提取后的特征;
步骤A2:基于第k阶段的外观特征Ak与运动特征Mk进行特征提取获得的特征Ak′、Mk′,通过以下公式将特征Ak′与Mk′融合,获得第k阶段的融合特征Fk:其中, 为点乘操作,max为最大池化操作,concat为拼接操作
步骤A3:基于快速傅里叶变换,将第k阶段的融合特征Fk转换成频域特征,将频域特征与其对应的可学习的权重矩阵Xk点乘获得频域全局增强的特征,再通过快速傅里叶逆变换将频域全局增强的特征转换成空间特征,将空间特征与第k阶段的融合特征Fk进行点乘,获得该阶段对应的第一特征Fk′,具体公式为:其中, 为点乘操作,FFT为快速傅里叶变换,iFFT为快速傅里叶逆变换,Xk为可学习的权重矩阵。
2.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述步骤2中,双流CNN骨干网络模块,包括视频图像帧和光流估计图像分别对应的特征提取网络模块,视频图像帧输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的外观特征,光流估计图像输入其对应的特征提取网络模块经各预设分辨率特征提取阶段获得各阶段分别对应的运动特征;视频图像帧和光流估计图像分别对应的特征提取网络模块中特征提取的阶段数相同,阶段数越高输出的特征分辨率越低,相同阶段输出的特征分辨率相同;
频域全局滤波模块,分别针对双流CNN骨干网络模块输出的各阶段的外观特征和动作特征进行特征融合获得各阶段分别对应的融合特征;分别针对各阶段分别对应的融合特征,将融合特征转换成频域特征,将频域特征与可学习的权重矩阵进行点乘操作,实现对频域特征的全局滤波,然后再转换成空间特征与融合特征进行点乘操作,获得该阶段对应的第一特征,进而获得各阶段分别对应的第一特征;
多尺度特征提取模块,分别针对各阶段对应的第一特征,结合各预设尺寸的卷积核进行卷积操作,再将各预设尺寸的卷积核输出进行拼接,经过1×1卷积降维与激活函数后,获得该阶段对应的多尺度特征,进而获得各阶段分别对应的多尺度特征;
残差优化模块,分别针对各阶段对应的多尺度特征,经过3×3卷积后的特征与该阶段的多尺度特征进行点乘,然后与该阶段的多尺度特征进行相加,获得该阶段对应的优化特征,进而获得各阶段分别对应的优化特征;
上采样解码模块,基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至上采样至至视频图像帧分辨率,获得上采样特征;然后将上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
3.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述多尺度特征提取模块,分别针对各阶段对应的第一特征,通过以下公式,获得各阶段分别对应的多尺度特征:Fk″=σ(conv(concat(conv1(Fk′),conv2(Fk′),conv3(Fk′)...convn(Fk′)))),其中,Fk″表示第k阶段对应的多尺度特征,Fk′表示第k阶段对应的第一特征Fk′,表示激活函数,convn表示第n个预设尺寸的卷积核对应的卷积操作,concat为拼接操作。
4.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述残差优化模块,分别针对各阶段对应的多尺度特征,通过以下公式,获得各阶段分别对应的优化特征:其中,conv3*3表示3×3尺寸的卷积核对应的卷积操作, 为点乘操作,Fk″′表示第k阶段对应的优化特征,Fk″表示第k阶段对应的多尺度特征。
5.根据权利要求2所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述上采样解码模块,执行以下步骤,获得视频图像帧对应的分割出目标对象的图像目标掩模:步骤B1:基于各阶段对应的优化特征,将最后一阶段对应的优化特征迭代执行上采样,直至所有阶段遍历结束,获得第一上采样特征;每次迭代中上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接,具体公式如下:Uk‑1=concat(Upsample(Fk″′),Fk‑1″′),
其中,Upsample表示上采样操作,concat表示拼接操作,Fk″′表示第k阶段对应的优化特征,Uk‑1表示第k阶段优化特征上采样至上一阶段优化特征对应的分辨率,再与上一阶段优化特征进行拼接获得的特征;
步骤B2:将第一上采样特征进一步上采样至视频图像帧的分辨率,获得第二上采样特征,即上采样特征;
步骤B3:将第二上采样特征经过1×1卷积降维与激活函数获得目标特征,即视频图像帧对应的分割出目标对象的图像目标掩模。
6.根据权利要求1所述一种基于频域全局滤波的无监督视频目标分割方法,其特征在于:所述预训练的以视频图像帧、以及该视频图像帧对应的光流估计图像为输入,以该视频图像帧对应的分割出目标对象的图像目标掩模为输出的无监督视频目标分割模型的损失函数Ltotal(M,G)如下所示:Ltotal(M,G)=LIOU(M,G)+LBEC(M,G),
其中,
M为模型预测分割出目标对象的图像目标掩模结果,G为真实分割出目标对象的图像目标结果,H表示视频图像帧的高,W表示视频图像帧的宽,Mi,j表示预测分割出目标对象的图像目标掩模结果中第i行第j列的值,Gi,j表示真实分割出目标对象的图像目标掩模结果中第i行第j列的值。