利索能及
我要发布
收藏
专利号: 2023100762733
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于边框感知跨模态融合网络的幕墙框实时检测方法,其特征在于,该方法具体包括以下步骤:

S1:采集幕墙框RGB图像和深度图;

S2:对采集到的幕墙框RGB图像和深度图进行图像预处理,并构建、划分幕墙框数据集;

S3:构建基于边框感知跨模态融合网络的幕墙框检测模型,具体包括:根据幕墙边框的立体条形特性设计一种整体上呈现“W”型的编码器‑解码器结构实现多尺度多模态融合,编码器部分使用ConvNeXt作为特征提取网络,将其中传统的2D卷积替换为3D卷积,再将幕墙框RGB图像和深度图进行前期融合并输入到解码器对应模块形成四个尺度上的特征,解码器部分为适应幕墙框特殊的立体条形特征要求,构造FFA模块和CFF模块实现整体多尺度多模态的路径聚合;FFA模块和CFF模块连接进行自顶向下和自底向上实现对上采样的低分辨率特征与高分辨率特征合并以及从高分辨率特征到低分辨率特征的下采样流合并,再连接预测头以获得预测图;其中,FFA模块表示边框特征感知模块,CFF模块表示跨模态特征融合模块;

构造FFA模块,具体包括:输入一组RGB图和深度图并引出6条路径,第1条路径不做处理;第2条路径使用1×1×1的卷积调整通道特征;第3、4、5条路径进行1×1×1的卷积并分别使用3×1×1、1×3×1和1×1×3的非对称卷积实现V维度上的特征交互、学习H维度和W维度上的特征,再与路径2逐像素相加并使用了3×3×3的卷积构成主流特征;第6条路径使用1×1×1的卷积核进行卷积后用Sigmoid函数映射并与主流特征逐像素相乘,最终与第1条路径的初始特征进行逐像素相加并输出结果;

构造CFF模块,具体包括:输入两组RGB图和深度图,进行复制换序、拼接RGB图和拼接深度图操作并引出3条路径,第1条路径使用2×1×1的卷积和LN层;第2条路径,使用3×3×3的卷积、LN和GELU激活函数,并与第3条路径的原始深度图逐像素相加,再采用2×3×3的卷积核进行卷积;第3条路径,使用3×3×3的卷积、LN和GELU激活函数并与第2条路径的原始RGB图逐像素相加,再采用2×3×3的卷积核进行卷积;将第1条路径和第2条路径的特征进行融合并依次使用1×1×1卷积、LN、GELU激活函数和1×1×1卷积,最终与第1条路径相加输出结果;

S4:根据边框感知跨模态融合网络生成的预测图像和目标图像求解二元交叉熵损失函数,训练学习到幕墙框检测模型的最优参数,并保存训练好的最优幕墙框检测模型到实时检测平台;

S5:实时采集需要检测的幕墙框RGB图像和深度图,并利用保存的最优幕墙框检测模型进行实时检测。

2.根据权利要求1所述的幕墙框实时检测方法,其特征在于,步骤S1中,采集的幕墙框RGB图像和深度图包括:不同天气、不同光照、不同距离、不同角度、不同障碍物、有无粉尘情况下,采集的单框、多个框和整个框图像。

3.根据权利要求1所述的幕墙框实时检测方法,其特征在于,步骤S2具体包括:利用OpenCV中的GaussianBlur函数对RGB图像进行高斯滤波去噪,利用warpPerspective函数和getPerspectiveTransform函数进行透视变换校正图像,利用对数变换将深度信息进行重新映射,采用Mosaic数据增强并对部分幕墙框图像进行90°、180°、270°旋转以及水平、垂直方向上的平移和翻转,使用labelme打标签工具对图像中幕墙边框进行标注并将幕墙框数据集以7:2:1的比例划分成训练集、验证集和测试集。

4.根据权利要求3所述的幕墙框实时检测方法,其特征在于,步骤S3中,利用对数变换将深度信息进行重新映射,是使深度图远景之间距离缩小,把近景之间的距离拉大,减小背景的影响,其中对数变换的数学表达式为:y=λlog2(x+1)

其中,x表示从图像采集点到场景中各点的距离,用像素值表示,x∈[0,255];y表示映射后的距离;λ表示尺度比例常数,且λ的取值保证y∈[0,255]。

5.根据权利要求1所述的幕墙框实时检测方法,其特征在于,步骤S3中,将幕墙框RGB图像和深度图进行前期融合,具体包括:将数据集中的幕墙框RGB图像和深度图在一个新的维度中进行拼接组成四通道RGB‑D图像实现特征融合,这个新的维度的形式定义为C×V×H×W,其中,C、V、H、W分别表示特征的通道、视觉、高度和宽度维度。

6.根据权利要求1所述的幕墙框实时检测方法,其特征在于,步骤S4中,训练幕墙框检测模型,具体包括:初始学习率设置为0.001,采用Adam优化器进行训练,使用二元交叉熵函数作为训练过程中的损失函数,二元交叉熵函数的表达式如下所示:其中,BCELoss表示损失值,yi表示第i个像素点的标签值,p(yi)表示i个像素点的预测概率值,n表示单张图像的总像素。

7.根据权利要求1~6中任意一项所述检测方法设计的基于边框感知跨模态融合网络的幕墙框实时检测装置,其特征在于,该装置包括:数据采集模块:利用深度相机采集幕墙框RGB图像和深度图,获取多种简单甚至复杂干扰影响下的图像;

前期处理模块:用于对采集到的RGB图像和深度图进行预处理,进行图像降噪、透视变换、深度信息重新映射、数据增强以及旋转、平移和翻转操作以获得幕墙框数据集,并对数据集进行划分;

模型处理模块:用于构建、训练基于边框感知跨模态融合网络的幕墙框检测模型并保存最优幕墙框检测模型;

实时检测模块:包括移动式机械臂、深度相机和嵌入式系统,用于实时拍摄并实时检测幕墙框图像。