利索能及
我要发布
收藏
专利号: 2024119028661
申请人: 武汉工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多源弱监督的图像显著性检测方法,其特征在于,包括如下步骤:

导入RGB图像、深度图像、文本标签和点标签;

将所述RGB图像和所述文本标签进行匹配,得到初始伪标签,基于所述点标签对所述初始伪标签进行优化,得到伪标签;

构建显著性目标检测模型,所述显著性目标检测模型包括CNN编码器和Swin‑Transformer V2编码器的双分支,以及分别与双分支依次连接的混合注意力模块、边缘约束模块和渐进式解码器;

通过所述CNN编码器对所述深度图像进行深度特征提取,得到深度特征集,通过所述Swin‑Transformer V2编码器对所述RGB图像进行通道特征提取,得到多尺度特征集,通过所述混合注意力模块对所述深度特征集和所述多尺度特征集进行融合处理,得到多个不同的层级图像特征,通过所述边缘约束模块从多个所述层级图像特征中提取出边缘特征,通过所述渐进式解码器分别对多个所述层级图像特征和所述边缘特征进行解码处理,得到显著性目标图像;

通过所述边缘约束模块对所述显著性目标图像进行边缘提取,得到边缘监督特征,对所述边缘特征、所述边缘监督特征、所述显著性目标图像和所述伪标签进行损失计算,得到总损失,通过所述总损失对所述显著性目标检测模型进行优化,得到优化显著性目标检测模型;

通过所述优化显著性目标检测模型对待检测RGB图像和待检测深度图像进行检测,得到目标显著性目标图像。

2.根据权利要求1所述的图像显著性检测方法,其特征在于,所述将所述RGB图像和所述文本标签进行匹配,得到初始伪标签,包括:通过CLIP模型对所述RGB图像和所述文本标签进行特征提取,得到编码注意力权重、图像特征和文本特征;

通过softmax函数对所述图像特征和所述文本特征的概率分布进行计算,得到前景类分数和背景类分数,通过权重计算表达式对所述前景类分数和所述背景类分数进行计算,得到多个像素点类别权重,所述权重计算表达式为:c

其中, 为类别权重,Z为总像素值,y 为前景类c像素分数, 为第k个通道上像素点c c′ c′坐标,s为前景类c分数,y 为背景类c′像素分数,s 为背景类c′分数;

对多个所述像素点类别权重进行加权求和,得到初始类别激活映射图,对所述初始类别激活映射图进行掩码提取,得到类别掩码,通过权重融合表达式对所述编码注意力权重、所述初始类别激活映射图和所述类别掩码进行计算,得到类别激活映射图,所述权重融合表达式为:t at

其中,M为类别激活映射图,Bc为类别掩码,W 为编码注意力权重,Mc为初始类别激活映射图,vec(·)为矩阵向量化,⊙为逐元素相乘;

按照设定过滤参数对所述类别激活映射图的像素进行筛选,得到初始伪标签。

3.根据权利要求1所述的图像显著性检测方法,其特征在于,所述点标签包括前景目标点图像和背景目标点图像;

所述基于所述点标签对所述初始伪标签进行优化,得到伪标签,包括:

通过sobel算法对所述RGB图像进行特征提取,得到粗糙边缘图像,通过Flood Fill算法按照所述前景目标点图像对所述粗糙边缘图像进行像素填充处理,得到前景目标激活图像;

将所述前景目标激活图像和所述初始伪标签相加,得到背景目标图像,通过Flood Fill算法按照所述背景目标点图像对所述背景目标图像进行像素填充处理,得到背景目标激活图像,通过条件随机场算法对所述背景目标激活图像进行细化操作,得到伪标签。

4.根据权利要求1所述的图像显著性检测方法,其特征在于,所述通过所述CNN编码器对所述深度图像进行深度特征提取,得到深度特征集,包括:所述CNN编码器包括逐点卷积层、标准归一化层、激活函数层、第一普通卷积块和多个串联的深度可分离卷积块,所述第一普通卷积块与首个深度可分离卷积块连接,其余深度可分离卷积块依次连接,最后一个深度可分离卷积块与所述逐点卷积层、标准归一化层和激活函数层依次连接;

通过所述第一普通卷积块对所述深度图像进行卷积操作,得到普通卷积特征;

通过首个深度可分离卷积块对所述普通卷积特征进行卷积操作,得到第一层级深度特征,通过第二个深度可分离卷积块对所述第一深度特征进行卷积操作,得到第二层级深度特征,以此类推,直至最后一个深度可分离卷积块对上一个深度可分离卷积块的输出进行卷积操作,得到新层级深度特征;

通过所述逐点卷积层对所述新层级深度特征进行逐点卷积操作,通过所述标准归一化层对逐点卷积后新层级深度特征进行归一化处理,通过所述激活函数层对归一化后新层级深度特征进行激活处理,得到最优层级深度特征;

由每个深度可分离卷积块的输出和所述最优层级深度特征组成深度特征集。

5.根据权利要求1所述的图像显著性检测方法,其特征在于,所述通过所述Swin‑Transformer V2编码器对所述RGB图像进行通道特征提取,得到多尺度特征集,包括:所述Swin‑Transformer V2编码器包括与划分层连接的多个串联的Transformer基础块;

通过所述划分层对所述RGB图像进行分块处理,得到多个图像块,对多个所述图像块进行线性映射,得到窗口嵌入特征;

通过首个Transformer基础块对所述窗口嵌入特征进行窗口多头自注意力操作,得到第一初始窗口注意力权重,将所述第一初始窗口注意力权重与所述窗口嵌入特征相加,得到第一窗口注意力权重,对所述第一窗口注意力权重进行跨窗口多头自注意力操作,得到第一初始跨窗口注意力权重,将所述第一初始跨窗口注意力权重与所述第一窗口注意力权重相加,得到第一跨窗口注意力权重,通过多层感知机对所述第一跨窗口注意力权重进行特征提取,得到第一感知特征,将所述第一感知特征与所述第一跨窗口注意力权重相加,得到第一层级RGB特征,通过第二个Transformer基础块对所述第一跨窗口注意力权重进行窗口多头自注意力操作,得到第二初始窗口注意力权重,将所述第二初始窗口注意力权重与所述第一跨窗口注意力权重相加,得到第二窗口注意力权重,对所述第二窗口注意力权重进行跨窗口多头自注意力操作,得到第二初始跨窗口注意力权重,将所述第二初始跨窗口注意力权重与所述第二窗口注意力权重相加,得到第二跨窗口注意力权重,通过多层感知机对所述第二跨窗口注意力权重进行特征提取,得到第二感知特征,将所述第二感知特征与所述第二跨窗口注意力权重相加,得到第二层级RGB特征,以此类推,直至最后一个Transformer基础块得到最后一个层级RGB特征;

由每个Transformer基础块输出的层级RGB特征组成多尺度特征集。

6.根据权利要求1所述的图像显著性检测方法,其特征在于,所述深度特征集包括多个层级深度特征,所述多尺度特征集包括多个层级RGB特征,且多个所述层级深度特征和多个所述层级RGB特征一一对应;

所述通过所述混合注意力模块对所述深度特征集和所述多尺度特征集进行融合处理,得到多个不同的层级图像特征,包括:所述混合注意力模块包括依次连接的Transformer混合块、通道注意力块和空间注意力块;

通过所述Transformer混合块对任意一个层级深度特征和对应的层级RGB特征进行交叉计算,得到第一混合特征和第二混合特征,将所述第一混合特征和所述第二混合特征相加,得到初始层级图像特征,通过所述通道注意力块对所述初始层级图像特征的通道信息进行权重计算,得到通道注意力权重,将所述通道注意力权重与所述初始层级图像特征进行逐元素相乘,得到通道层级图像特征,通过所述空间注意力块对所述通道层级图像特征的空间信息进行权重计算,得到空间注意力权重,将所述空间注意力权重与所述初始层级图像特征进行逐通道相乘,得到空间层级图像特征,将所述空间层级图像特征与所述初始层级图像特征进行逐元素相加,得到层级图像特征,以此过程,对所有层级深度特征和所有层级RGB特征进行处理,得到多个不同的层级图像特征。

7.根据权利要求1所述的图像显著性检测方法,其特征在于,多个所述层级图像特征包括高层图像特征和低层图像特征;

所述通过所述边缘约束模块从多个所述层级图像特征中提取出边缘特征,包括:

所述边缘约束模块包括多个上采样块;

通过首个上采样块对所述高层图像特征进行上采样处理,得到边缘高层图像特征,通过第二个上采样块对所述低层图像特征进行上采样处理,得到边缘低层图像特征,对所述边缘高层图像特征和所述边缘低层图像特征进行特征连接,得到初始边缘特征,通过第三个上采样块对所述初始边缘特征进行上采样处理,得到采样边缘特征,通过最后一个上采样块对所述采样边缘特征进行上采样处理,得到边缘特征。

8.根据权利要求1所述的图像显著性检测方法,其特征在于,所述通过所述渐进式解码器分别对多个所述层级图像特征和所述边缘特征进行解码处理,得到显著性目标图像,包括:所述渐进式解码器包括多个第二普通卷积块和多个普通卷积层;

分别通过多个所述第二普通卷积块一一对应对层级图像特征进行卷积操作,对多个普通卷积后层级图像特征进行逐元素相加,得到初始显著特征,通过激活函数对所述边缘特征进行激活操作,得到激活边缘特征,将所述激活边缘特征与所述初始显著特征进行逐元素相乘,得到初始边缘显著特征,将所述初始边缘显著特征与所述初始显著特征进行逐元素相加,得到边缘显著特征,通过多个所述普通卷积层依次对所述边缘显著特征进行普通卷积操作,得到显著性目标图像。

9.根据权利要求1所述的图像显著性检测方法,其特征在于,所述对所述边缘特征、所述边缘监督特征、所述显著性目标图像和所述伪标签进行损失计算,得到总损失,包括:通过边缘交叉熵损失函数对所述边缘特征和所述边缘监督特征进行计算,得到边缘交叉熵损失,所述边缘交叉熵损失函数为:其中, 为边缘交叉熵损失,Fedge为边缘特征, 为边缘监督特

征;

通过相似系数损失函数对所述边缘特征和所述边缘监督特征的像素值进行计算,得到相似系数损失,所述相似系数损失函数为:其中, 为相似系数损失,pi为边缘特征的第i个像素值,gi为边缘

监督特征的第i个像素值,N1为显著性目标图像的像素总数;

对所述边缘交叉熵损失与所述相似系数损失进行求和,得到边缘损失;

通过目标交叉熵损失函数对所述显著性目标图像和所述伪标签进行计算,得到目标交叉熵损失,所述目标交叉熵损失函数为:o

其中, 为目标交叉熵损失,S为显著性目标图像,P为伪标签;

通过边缘相关损失函数对所述显著性目标图像的边缘像素值和所述伪标签的边缘像素值进行计算,得到边缘相关损失,所述边缘相关损失函数为:其中, 为边缘相关损失,K为边缘相似关系,W为伪标签的宽,H为伪标签的高;

通过区域相关损失函数对所述显著性目标图像的像素值和所述伪标签的像素值进行计算,得到区域相关损失,所述区域相关损失函数为:其中, 为区域相关损失,N2为伪标签的像素总数;

对所述边缘相关损失与所述区域相关损失进行求和,得到混合增强损失,对所述目标交叉熵损失与所述混合增强损失进行求和,得到显著性损失;

通过像素级对比损失函数对所述显著性目标图像的像素值和所述伪标签的像素值进行计算,得到像素级对比损失,所述像素级对比损失函数为:其中, 为像素级对比损失,Mj,k为像素相同区域,Sj,k为像素相似值,j为伪标签的第j个像素,k为显著性目标图像的第k个像素;

对所述像素级对比损失、所述显著性损失和所述边缘损失进行求和,得到总损失。

10.一种基于多源弱监督的图像显著性检测系统,其特征在于,包括:

导入单元,用于导入RGB图像、深度图像、文本标签和点标签;

标注单元,用于将所述RGB图像和所述文本标签进行匹配,得到初始伪标签,基于所述点标签对所述初始伪标签进行优化,得到伪标签;

构建单元,用于构建显著性目标检测模型,所述显著性目标检测模型包括CNN编码器和Swin‑Transformer V2编码器的双分支,以及分别与双分支依次连接的混合注意力模块、边缘约束模块和渐进式解码器;

预测单元,用于通过所述CNN编码器对所述深度图像进行深度特征提取,得到深度特征集,通过所述Swin‑Transformer V2编码器对所述RGB图像进行通道特征提取,得到多尺度特征集,通过所述混合注意力模块对所述深度特征集和所述多尺度特征集进行融合处理,得到多个不同的层级图像特征,通过所述边缘约束模块从多个所述层级图像特征中提取出边缘特征,通过所述渐进式解码器分别对多个所述层级图像特征和所述边缘特征进行解码处理,得到显著性目标图像;

优化单元,用于通过所述边缘约束模块对所述显著性目标图像进行边缘提取,得到边缘监督特征,对所述边缘特征、所述边缘监督特征、所述显著性目标图像和所述伪标签进行损失计算,得到总损失,通过所述总损失对所述显著性目标检测模型进行优化,得到优化显著性目标检测模型;

应用单元,用于通过所述优化显著性目标检测模型对待检测RGB图像和待检测深度图像进行检测,得到目标显著性目标图像。