利索能及
我要发布
收藏
专利号: 2023104502345
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种RGB‑D显著性目标检测方法,其特征在于,具体包括如下步骤:S1,输入RGB图像和深度图像;

S2,利用基于T2T‑ViT的transformer编码器对RGB图像进行特征提取,利用基于轻量级卷积网络MobileNet V2的编码器对深度图像进行特征提取,分别获取RGB图像和深度图像不同层级的显著性特征;

S3,利用基于跨模态Transformer融合模块,融合深层次RGB特征和深度特征之间的互补语义信息,生成跨模态联合特征;

S4,利用密集连接增强的跨模态密集协作聚合模块实现两种不同模态的特征融合,逐级融合不同尺度上的深度特征和RGB特征,输入到显著性目标检测部分;

S5,按照预测的显著图分辨率由小到大排序,并利用真值图对网络进行有监督学习,输出最终的显著性检测结果。

2.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S2的基于T2T‑ViT的transformer编码器中的T2T操作包括:重组和软拆分,所述重组是将一个token序列 重建成一个3D张量 ,其中,是token序列 的长度, 是token序列 和3D张量 的通道数, 分别代表 的高度和宽度,且 ;

所述软拆分是通过展开操作将 软分割成 大小的块, 经所述软拆分后得到token序列,其长度 可以表示为:

,其中, 代表块之间像素重叠个数, 代

表块之间像素填充个数, 代表卷积运算中的步长,当 时, tokens序列的长度便可降低;

原始RGB图像 ,其中 分别代表 的高度、宽度和通道数,经过重组得到的token序列 经过三轮Transformer转换和两轮T2T操作得到了多级tokens序列 ,这一过程可以表示为:。

3.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S2中,基于轻量级卷积网络MobileV2Net的编码器包括IRB结构。

4.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S3中的跨模态Transformer融合模块包括:跨模态交互注意力模块和Transformer层,所述跨模态交互注意力模块,用于对RGB图和深度图之间的远程跨模态依赖进行建模,整合RGB数据和深度数据之间的互补信息。

5.根据权利要求4所述的一种RGB‑D显著性目标检测方法,其特征在于,经跨模态Transformer融合模块,得到跨模态交互信息的公式,表示为:,

其中, 、 分别两种模态的查询, 、 为分别两种模态的键, 、 为分别两种模态的值。

6.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S4的跨模态密集协作聚合模块包括:三个特征聚合模块和一个双重倒残差模块,跨模态密集协作聚合模块用于将低分辨率编码器特征扩展到与输入图像分辨率大小一致,所述特征聚合模块用于聚合特征和融合跨模态信息。

7.根据权利要求6所述的一种RGB‑D显著性目标检测方法,其特征在于,所述特征聚合模块包括:一个CBAM和两个IRB,还包含了两个元素相乘和一个元素相加操作;基于特征聚合模块的特征聚合和融合跨模态信息过程包括如下步骤:S4.1,RGB特征 和深度特征 进行相乘,再经过一个IRB进行卷积后得到过渡的 RGB‑D 特征图 ,此过程表示为:;

S4.2,深度特征 经CBAM增强后的特征记为 ,此过程表示为:;

S4.3,  再与深度特征 再次相乘强化语义特征后得到 ,此过程表示为:;

S4.4,  与RGB特征 相加以重新增强显著特征,同时引入较低层次的输出特征进行元素相加,然后使用IRB,得到跨模态融合后的RGB‑D特征 ,此过程表示为:。

8.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S4中,来自T2T‑ViT的经重组后的RGB信息 , , 和来自MobileNet V2的深度信息 , , ,被输入到密集连接增强后的解码器,密集连接用于将不同尺度上的深度特征和RGB特征的进行融合。

9.根据权利要求1所述的一种RGB‑D显著性目标检测方法,其特征在于,步骤S5中,预测的显著图由调整相应大小后的真值图进行监督,将这一阶段产生的四个损失表示为,总的损失函数 计算公式如下: ,

其中, 表示每个损失的权重,按照分辨率由小到大的顺序将四个显著性预测图依次记为 , 表示来自真值图的监督,其分辨率与 对应, 表示交叉熵损失函数。