利索能及
我要发布
收藏
专利号: 2023110184871
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,执行以下步骤,步骤1:获取待处理图像;

步骤2:针对待处理图像,利用预训练的以图像为输入,以该图像对应的语义分割图像为输出的语义分割模型,获得待处理图像对应的语义分割图像;

所述语义分割模型包括编码器、解码器,待处理图像通过编码器提取获得其对应的特征图,解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像;

所述待处理图像通过编码器提取获得其对应的特征图,具体过程如下:

步骤A1:待处理图像作为输入图像 通过卷积下采样模块进行下采样和特征提取获得特征图 ,并且将输入图像 使用平均池化下采样两倍获得特征图 ,进而将特征图 和 进行拼接获得特征图 ;

步骤A2:特征图 通过一个并行下采样模块进行下采样获得特征图 ,然后特征图顺次经过三个基于通道注意力的深度非对称模块依次对特征图 进行特征提取,获得特征图 ,并且将输入图像 使用平均池化下采样四倍获得特征图 ,进而将特征图 、 和 进行拼接获得特征图 ;

步骤A3:特征图 通过一个并行下采样模块进行下采样获得特征图 ,然后特征图 顺次经过八个基于通道注意力的深度非对称模块依次对特征图 进行特征提取,得特征图 ,并且将输入图像 使用平均池化下采样八倍获得特征图 ,进而将特征图 、 和 进行拼接获得特征图 ;

所述解码器基于编码器提取的特征图获得待处理图像对应的语义分割图像,具体过程如下:步骤B1:特征图 通过基于空间注意力的金字塔池化模块进行多尺度信息提取获得特征图 ;

步骤B2:特征图 、特征图 通过一个基于像素注意力的多尺度特征融合模块进行融合上采样获得特征图 ;

步骤B3:特征图 、特征图 通过一个基于像素注意力的多尺度特征融合模块进行融合上采样处理获得特征图 ;

步骤B4:特征图 通过1×1卷积将该特征图通道处理成分割类别数,并使用双线性插值上采样进行上采样,获得待处理图像对应的语义分割图像 。

2.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,所述卷积下采样模块具体为:首先卷积下采样模块输入图像 经过一个步长为2的

3×3卷积对输入图像 进行下采样,然后顺序经过两个步长为1的3×3卷积来提取特征获得卷积下采样模块输出特征图 ,公式表示为:;

其中, 为3×3卷积。

3.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,针对所述步骤A2中三个各基于通道注意力的深度非对称模块、以及步骤A3中八个基于通道注意力的深度非对称模块,基于通道注意力的深度非对称模块结构相同,基于通道注意力的深度非对称模块具体为:首先基于通道注意力的深度非对称模块输入特征图经过一个3×3卷积将通道数减半,然后分别通过并行的两个分支,一个分支使用非对称卷积分解的3×3深度卷积用来提取局部特征 ,另一个分支使用非对称卷积分解的3×3深度膨胀卷积用来提取上下文特征 ;进而基于 与 拼接获得 ,使用全局平均池化进行池化,然后顺序经过两个1×1卷积进行特征增强,接着使用sigmoid函数进行非线性激活获得通道注意力 ;最后将注意力 与特征图 逐元素相乘获得增强后的特征图,再将增强后的特征图与输入特征图相加,然后进行通道重排操作,获得深度非对称模块输出特征图 ;公式表示为:;

其中, 和 为非对称卷积分解的3×3深度卷积获得的3×1和1×3

的深度非对称卷积, 和 为非对称卷积分解的3×3深度膨胀卷积

获得的3×1和1×3的深度非对称膨胀卷积, 为拼接操作, 为通道重排操作,为全局平均池化操作, 为1×1卷积, 为sigmod激活。

4.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,针对所述步骤A2中一个并行下采样模块、以及步骤A3中一个并行下采样模块,所述并行下采样模块结构相同,并行下采样模块具体为:首先针对并行下采样模块输入特征图并行经过步长为2的3×3卷积和步长为2的2×2最大池化进行下采样,并将获得的两特征图拼接获得并行下采样模块输出特征图 ;公式表示为:;

其中, 为最大池化操作, 为拼接操作, 为3×3卷积。

5.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,所述基于空间注意力的金字塔池化模块具体为:首先基于空间注意力的金字塔池化模块输入特征图 经过1×1卷积进行通道缩减,获得新的特征图 ,然后顺序经过三个平均池化逐步对特征图 下采样获得各平均池化逐步分别输出的不同尺度的特征图 、 和 ;将下采样后获得的最小尺寸的特征图 顺序经过3×1和1×3大小的卷积核进行卷积并上采样,获得新的特征图 ,然后特征图 与 逐元素相加,再顺序经过

3×1和1×3大小的卷积核进行卷积并上采样,获得新的特征图 ,然后特征图 与 逐元素相加,再顺序经过3×1和1×3大小的卷积核进行卷积并上采样,获得最终多尺度特征金字塔 ;最后通过利用全局平均池化以及1×1卷积,获取图像级别的特征 ,并将多尺度特征金字塔 作为注意力与输入图像 进行逐元素相乘,再与上采样后的 逐元素相加,获得金字塔池化模块输出 ;公式可表示为:;

其中, 为1×1卷积, 为双线性插值上采样操作, 为平均池化操作,

和 分别为3×1卷积和1×3卷积,+为逐元素相加操作,×为逐元素相乘操作, 为全局平均池化操作。

6.根据权利要求1所述一种基于注意力的轻量化非对称场景语义分割方法,其特征在于,针对所述步骤B2中一个基于像素注意力的多尺度特征融合模块、以及步骤B3中一个基于像素注意力的多尺度特征融合模块,所述基于像素注意力的多尺度特征融合模块结构相同,基于像素注意力的多尺度特征融合模块具体为:首先针对基于像素注意力的多尺度特征融合模块输入的两特征图,利用1×1卷积将输入的低分辨率特征图 通道数处理成输入的高分辨率特征图 通道数并使用双线性插值上采样获得特征图 ;然后将与 进行拼接,利用3×3卷积获得像素注意力 ,将 和 分别与相乘然后相加,获得基于像素注意力的多尺度特征融合模块输出 ;公式表示为:;

其中, 为双线性插值上采样操作, 为1×1卷积, 为拼接操作,

为3×3卷积。

7.一种基于权利要求1‑6任意一项所述基于注意力的轻量化非对称场景语义分割方法的系统,其特征在于,包括数据获取模块和语义分割模块,数据获取模块用于获取待处理图像;

语义分割模块用于针对待处理图像,利用预训练的以图像为输入,以该图像对应的语义分割图像为输出的语义分割模型,获得待处理图像对应的语义分割图像。