利索能及
我要发布
收藏
专利号: 202410487285X
申请人: 齐鲁工业大学(山东省科学院)
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的场景变动检测方法,其特征在于,包括如下步骤:a)预处理两幅原始图像,得到预处理后的尺寸为 的两幅图像 和,L和R为两幅图像, 表示矩阵元素的数据类型为实数,为图像的高,为图像的宽, 3为图像的通道数, 表示图像L是由一个形状大小为3×h×w的实数矩阵构成, 表示图像R是由一个形状大小为3×h×w的实数矩阵构成;

b)构造基于单应性对齐模块,将预处理后的两幅图像L和R输入到该模块中,分别得到两幅图像所对应的对齐图像L’和R’,L’是图像L基于图像R坐标系下的对齐,R是图像R基于图像L坐标系下的对齐,从而,图像L’与图像R之间的空间位置一致,图像R’与图像L之间的空间位置一致;

c)构建由特征提取模块和变动提取模块构成的初步变动检测网络,将对齐后的两幅图像L’和R’与对应的预处理后的图像R和L分别进行通道合并,在通道合并过程中,将L与R’在通道维度上进行合并,得到一个6通道的图像LR',其大小为 ,其中h和w分别表示图像的高度和宽度, 表示图像LR’是由一个形状大小为6×h×w的实数矩阵构成,将R与L’在通道维度上进行合并,得到一个6通道的图像RL',其大小为,将合并后的图像 LR’与RL’分别输入到各自对应的初步变动检测网路中,得到图像L和R各自所对应的变动信息DL和DR, LR’是预处理后的图像L和对齐图像R’合并后的图像, RL’是预处理后的图像R和对齐图像L’合并后的图像,DL为图像L的变动信息,DR为图像R的变动信息;

c)包括如下步骤:

c‑1)初步变动检测网络由图像通道连接、U‑Net编码器、变动信息的提取模块构成,其中变动信息的提取模块由减操作和交叉注意力机制构成的;

c‑2)将对齐后的图像 、 和所对应的图像

、 进行通道合并,得到图像对 和

,将合并后的两组图像对分别输入到U‑Net编码器中,分别输出得到两组的五个不同尺度的中间特征图 和 , ;

c‑3)将生成的两组特征图的通道对半划分,即将 分成和 , 表示的是图像 对应的特征

图, 表示的是图像 对应的特征图; 分成

和 , 表示图像R对应的特征图,

表示图像 对应的特征图;

c‑4)利用变动提取模块对 、 、

和 进行处理,获得图像L和R各自对应的变动信息和 ;

在第一层级的中间特征图中,获取图像L在第一层级的变动信息,对和 进行减操作,将减完后得到的特征图与 进行融合,从而得到图像L在第一层级中间特征图中的变动信息 ,为图像L在第一层级中间特征图中变动信息, 为图像L在第一层级的中间特征图, 为图像 在第一层级的中间特征图, 为融合机制;

采用与获取图像L在第一层级的变动信息一样的步骤得到, 为图像R在第一层级中间特征图中变动信息, 为图像R在第一层级的中间特征图, 为图像 在第一层级的中间特征图;

在中间特征图的第二到第五层级中, ,以获取图像L和R在第二到第五层级的变动信息;

先对 和 进行减操作得到 ,再对

和 进行交叉注意力处理得到 ,将 与 相

加得到的结果与 进行融合得到图像 在该层特征图的变动信息 ,, , , 为图像L在第二

到第五层级中间特征图中变动信息, 为图像L在第二到第五层级的中间特征图, 为图像 在第二到第五层级的中间特征图, 为融合机制, 为交叉注意力机制;

采用与图像L在第二到第五层级的变动信息一样的步骤得到图像R在第二到第五层级的变动信息 ,将代表图像L的变动信息统称为 ,代表图像R的变动信息统称为 ,;

d)构造由特征融合模块及边框检测模块构成的定位网络,将初步变动检测网络得到的变动信息DL和DR输入到各自对应的定位网络中,然后两个定位网络输出两幅图像L和R各自的变动区域的边界框;e)训练定位网络。

2.根据权利要求1所述的基于深度学习的场景变动检测方法,其特征在于,步骤b)包括如下步骤:b‑1)基于单应性对齐模块由图像特征点匹配和图像对齐构成,图像特征点匹配由特征点检测、特征点描述和特征点匹配构成,图像对齐由计算单应性变换矩阵和配准图像构成;

b‑2)将预处理后的图像L和R输入到对齐模块的特征点匹配中,获取图像对各自的特征点,并将两幅图像中的特征点进行匹配,输出得到两幅图像匹配成功的特征点KPL,KPR,KPL为图像L中具有明显局部结构的点,KPR为图像R中具有明显局部结构的点;

b‑3)将匹配好的特征点KPL,KPR输入到计算单应性变换矩阵的方法中计算得到变换矩阵HL‑R和HR ‑L,HL‑R为图像L向图像 对齐的变换矩阵,HR ‑L为图像R向图像L对齐的变换矩阵,然后将计算的变换矩阵应用到对应图像中实现图像对齐,输出得到对齐图像和 ,L’为在图像R场景下图像L对齐后的图像,R’为在图像L场景下图像R对齐后的图像。

3.根据权利要求1所述的基于深度学习的场景变动检测方法,特征在于,步骤d)包括如下步骤:d‑1)用U‑Net解码器对初步变动检测网络生成的特征变动信息 和 进行上采样和解码,最终以原始图像分辨率分别生成特征映射 和 ;d‑2)将特征映射 和 输入到预测目标边界框的组件中,输出两幅图像中所改变的区域并在区域周围产生边界框。

4.根据权利要求1所述的基于深度学习的场景变动检测方法,其特征在于,步骤e)包括如下步骤:e‑1)将预处理后的图像对按照20:1:2的比例划分为训练集、验证集和测试集;

e‑2)利用关键点loss和offsetloss来训练网络,使用Adam来优化总体目标,学习率为

0.00001,权重衰减为0.0005,使用batchsize为16的DDP训练策略,训练时进行200轮迭代,每间隔1轮使用验证集进行一次验证。

5.一种基于深度学习的场景变动检测装置,其特征在于,执行如权利要求1‑4中任一项所述的场景变动检测方法中的步骤,包括:基于单应性对齐模块,将预处理后的两幅图像L和R处理得到两幅图像所对应的对齐图像L’和R’;

初步变动检测网络模块,包括特征提取模块和变动提取模块,将两幅图像输入特征提取模块得到预处理后的图像和对齐图像合并后的图像特征融合模块;

定位网络模块,特征融合模块及边框检测模块,得到两幅图像L和R各自的变动区域的边界框。

6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至4任一项所述的场景变动检测方法中的步骤。

7.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述场景变动检测方法中的步骤。