利索能及
我要发布
收藏
专利号: 2025101022326
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多模态特征融合的光场显著目标检测方法,其特征在于,包括如下步骤:

S1、获取待处理的光场多模态焦点堆栈图像和全聚集图像;

S2、将所述待处理的光场多模态焦点堆栈图像和全聚集图像作为训练后的光场显著目标检测模型的输入,输出得到待处理的光场多模态焦点堆栈图像和全聚集图像的光场显著目标检测结果;所述光场显著目标检测模型包括切片交织增强模块、高层特征融合模块、低层交叉注意力模块和紧凑金字塔细化模块;

所述光场显著目标检测模型的训练过程包括:

S201、将作为光场显著目标检测模型输入的光场多模态焦点堆栈图像和全聚集图像作为训练样本,输入至以Pvtv2为主干网络的光场显著目标检测模型中,对所述训练样本进行特征提取,分别提取得到四种不同尺度的焦点堆栈特征图和全聚焦特征图;

S202、基于Swin‑T模块构建所述切片交织增强模块,将所述四种不同尺度的焦点堆栈特征图作为切片交织增强模块的输入,以局部的方式增强焦点切片间的特征,获得增强后的焦点流特征;

S203、将经过Pvtv2得到的四种不同尺度的全聚焦特征图通过感受野块,得到增强后的全聚焦流特征;将所述增强后的全聚焦流特征和所述增强后的焦点流特征中的高层特征作为所述高层特征融合模块的输入,以局部和全局的方式对高层多模态语义信息进行特征融合,输出得到融合后的高层特征图;

S204、将所述增强后的全聚焦流特征和所述增强后的焦点流特征中的低层特征作为所述低层交叉注意力模块的输入,以交叉增强的方式对低层多模态的空间‑通道特征进行融合,输出得到融合后的低层特征图;

S205、将所述融合后的高层特征图和所述融合后的低层特征图作为所述紧凑金字塔细化模块的输入,从上到下聚合多尺度特征,输出得到最终的显著图;

S206、采用由切片交织增强损失函数和混合结构损失函数组成的总损失函数,计算光场显著目标检测模型的训练损失,并以最小化总损失函数为目标,对光场显著目标检测模型的参数进行更新;

S207、重复步骤S201至S206,直至光场显著目标检测模型收敛或达到预设训练次数,则完成训练。

2.根据权利要求1所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,步骤S202中,所述切片交织增强模块包括级联的Swin‑T模块、并行的4个感受野块和3个上采样单元,其中,所述Swin‑T模块包括局部窗口自注意力单元和滑动窗口掩码单元;

在切片交织增强模块中,对输入的每个尺度的焦点堆栈特征图分别通过并行的4个感受野块,分别得到对应的焦点切片特征图;然后,采用Swin‑T模块中的局部窗口自注意力单元将第四层焦点切片特征图划分为多个局部窗口块,并采用多头自注意力机制计算局部相似度,接着,采用Swin‑T模块中的滑动窗口掩码单元在所述局部特征图上滑动,并通过掩码操作得到全局特征图;最后,将第四层焦点切片特征图与经过Swin‑T模块后得到的特征通过逐元素乘法操作进行融合,将融合后的特征图作为第三上采样单元的输入,每一个上采样单元的输出与对应的焦点切片特征图进行融合后,作为连接上一层的输入,依次对所有层次的焦点切片特征图进行增强,得到对应的增强后的焦点切片特征图。

3.根据权利要求2所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,所述切片交织增强模块的处理过程为:式中,RFB(·)表示经过感受野块操作的输出, 表示经过Pvtv2的焦点堆栈特征图, 表示经过感受野块输出的焦点切片特征图,n表示焦点切片的数量(n=1,2,…,

12),i表示多尺度特征的层数(i=1,2,3,4), 表示增强后的焦点流特征,Swin(·)表示经过Swin‑T模块的结果,U(·)表示双线性上采样, 表示逐元素乘法。

4.根据权利要求1所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,步骤S203中,所述高层特征融合模块的处理过程包括:在高层特征融合模块的第一步中,将切片交织增强模块中第四层增强后的焦点切片特征图和经过第四感受野块处理得到的第四层增强后的全聚焦特征图进行特征融合,得到第四层融合总输出;然后,在第二步中,将所述第四层融合全局和局部的输出与切片交织增强模块中第三层增强后的焦点切片特征图和经过第三感受野块处理得到的第三层增强后的全聚焦特征图作为输入,重新构建高层特征融合模块,得到第三层融合总输出作为高层特征融合模块的总输出。

5.根据权利要求4所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,所述高层特征融合模块的处理过程为:第一步处理过程表达为:

式中,A4表示第四层相似度矩阵, 和 分别表示第四层融合的全局、局部和总输出,softmax(·)表示softmax操作,mul(·)表示矩阵乘法, 表示对键K4重塑后的结果, 表示对查询Q4重塑后的结果,γ表示可学习参数,conv1×1(·)表示1×1卷积,V4表示第四层增强后的全聚焦特征引导生成的值,conv3×3×3(·)表示3×3×3卷积,CS(·)表示通道混洗操作,cat(·)表示串联操作,Xa(4)表示经过第四感受野块处理得到的第四层增强后的全聚焦特征图, 表示切片交织增强模块中第四层增强后的焦点切片特征图;

第二步处理过程表达为:

式中, 和 分别表示第三层融合的全局和局部的输出,PH表示高层特征融合模块的总输出,V3表示第三层增强后的全聚焦特征引导生成的值,A3表示第三层的相似度矩阵,Xa(3)表示第三层增强后的全聚焦特征图, 表示第三层增强后的焦点切片特征图。

6.根据权利要求1所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,步骤S204中,所述低层交叉注意力模块包括级联的两组空间‑通道注意力单元和卷积层,所述两组空间‑通道注意力单元并联,其中,所述空间‑通道注意力单元包括并联的正交通道注意力子单元和空间注意力子单元;

在低层交叉注意力模块中,将低层增强后的全聚焦流特征沿批量维度进行复制以对齐焦点流,将复制后的低层全聚焦流特征和低层增强后的焦点流特征分别作为两组空间‑通道注意力单元的输入,分别输出生成各自的正交通道注意力权重和空间注意力权重,将所述复制后的低层全聚焦流特征和低层增强后的焦点流特征分别与对方生成的正交通道注意力权重和空间注意力权重进行相乘操作,输出结果进行拼接后通过卷积层进行聚合,得到融合后的低层特征图作为低层交叉注意力模块的总输出。

7.根据权利要求6所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,所述低层交叉注意力模块的处理过程为:PCA(i)=conv3×3(cat(Ta(i),Tfs(i)));

式中,PCA(i)表示低层交叉注意力模块的输出结果,Ta(i)和Tfs(i)分别表示由双重注意力增强后的全聚焦特征和焦点特征,replicate(.)表示沿批量维度复制操作, 表示空间注意力权重, 表示正交通道注意力权重。

8.根据权利要求1所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,步骤S205中,所述紧凑金字塔细化模块的处理过程为:Sfinal=conv1×1(CPR(CPR(PH,PCA(2)),PCA(1)));

式中,Sfinal表示最终的显著图,CPR(·)表示经过CPR细化操作。

9.根据权利要求1所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,步骤S206中,所述切片交织增强损失函数为:式中,LE表示切片交织增强损失函数,LS表示混合结构损失函数,Sfs(i)表示粗略的显著图,G表示真值。

10.根据权利要求9所述的基于多模态特征融合的光场显著目标检测方法,其特征在于,所述总损失函数为:Ltotal=LE+LS(Sfinal,G);

式中,Ltotal表示总损失函数。