利索能及
我要发布
收藏
专利号: 2023101651742
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于生成对抗和注意力机制的光流估计方法,其特征在于,包括以下步骤:输入一对连续的RGB图像数据;

对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理,生成光流结果;

基于所述光流结果,再通过鉴别器进行处理,生成光流估计结果;

所述进行特征提取的方法包括:基于输入的图像,通过特征提取网络和上下文网络的残差块,提取特征图;

进行特征匹配的方法包括:反向残差注意力网络和关联层;所述反向残差注意力网络由反向残差块和注意力层构成的Transformer网络;所述注意力层包括自注意力网络和交叉注意力网络;所述关联层用于计算视觉相似度的,即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作;

所述反向残差块对输入的特征向量重新排序,给定输入张量 ,其中,H、W、C分别为其高度、宽度和通道,反向残差块表示为:其中,BN、GeLU分别代表批量归一化、高斯误差线性单元;符号σ代表Sigmoid函数,符号 代表运算叠加;函数N1代表由1×1卷积组成的通道扩展函数;函数D代表由3×3卷积组成的深度卷积函数;函数N2代表由1×1卷积组成的通道投影函数;

关联层通过对所有像素对的特征向量做内积去构建一个四维的 关联量,这个四维关联量的后两维将会被多尺度采样,从而构建一系列多尺度量;

通过对关联量的最后两个维度池化进行下采样操作,构建一个四层金字塔;其中,关联 量的尺寸为 ;

通过关联量获取关于大位移和小位移的信息;

通过保存图像 的前两个维度,也保存了高分辨率信息,这使得能够捕获快速移动的小物体的运动;

定义一种查找操作 ,通过对关联金字塔进行索引来生成特征图;

这种查找操作是以双线性采样的方式通过使用局部邻域从关联量中进行索引。

2.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述注意力层的输入分别为查询向量Q、键向量K和值向量V,查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重,从值向量V中检索信息;注意力层表示为:其中, 为特征向量的维度,上标T表示为矩阵转

置,softmax为归一化指数函数。

3.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述自注意力网络的输入特征 和 是一样的,即为 或 ,所述交叉注意力网络的输入特征 和 为 和 ,或 和 ,计算变换特征之间的得分矩阵S:其中,i,j分别代表第i,j帧图像, 和 为输入特征 和 在注意力层的表达方式,是|FA||FB|, 则代表除以特征 和 的模;

然后在得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率 :基于置信矩阵 ,设置置信度大于阈值

的匹配,通过相互最近邻准则进一步筛选,过滤离群匹配,匹配预测函数 为:其中, 代表 矩阵中使用MNN算法后得到

的元素;

通过计算置信矩阵 上的负对数似然损失,得到损失函数 :其中, 表示的是真实匹配,它是通过计算两组分辨率网格的相互最近邻匹配得到的。

4.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述关联层通过对所有像素对的特征向量做内积去构建一个四维的 关联量,所述四维的 关联量的后两维将会被多尺度采样,从而构建一系列多尺度量。

5.根据权利要求4所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,给定图像特征 和 ,通过获取所有特征向量对之间的点积来形成关联量C,计算单个矩阵乘法,计算公式如下所示:其中,i和j代表第一个特征

的长和宽;k和h代表第二个特征的长和宽;

通过对关联量的最后两个维度池化进行下采样操作,从而构建了一个四层金字塔。

6.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述鉴别器采用的是U‑Net编码器‑解码器结构,首先使用编码器对生成器输出的光流结果进行下采样,再将其输入到卷积输出层中,得到鉴别器的粗粒度输出特征,当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时,将这两个特征串联起来,作为解码器下一层的输入,在解码器中进行上采样后,获得具有与生成器的输出结果相同分辨率的细粒度输出图。