买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种多尺度轻量级实时语义分割方法、系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种多尺度轻量级实时语义分割方法、系统

￥31200

专利号： 2023108844642

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种多尺度轻量级实时语义分割方法，其特征在于，包括：

S1、获取互联网上公开的图像数据集，对其进行预处理；

S2、构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图；

S3、将编码器主干网络中间层特征图和最深层特征图分别输入轻量化注意力模块，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入轻量化物体上下文特征融合模块，生成增强的区域上下文信息特征图；

S4、将编码器主干网络浅层特征图输入轻量化注意力模块，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图；

对生成的两个特征图进行连接、池化、上采样操作，生成最终网络分割结果；

其中，步骤S2中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：S201、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建：下采样模块中，使用并联的步长为2的3×3卷积层与2×2最大池化层；

轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道；

其处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3×1和1×3的

1D分解卷积进行特征提取，在右分支上利用带有扩张率3×1和1×3的1D分解卷积进行特征提取，将两个分支连接，执行1×1逐点卷积恢复通道的数量，再进行通道洗牌操作，具体计算公式为：σ(Wtxt)＝max(0,x)；

F(xt,Wt)＝σ(Wtxt)；

xt+1＝xt+F(xt,Wt)；

其中，xt表示网络输入值，xt+1表示网络输出值，Wt表示权重，σ表示激活函数，F()表示对应系数相乘的函数；

编码器主干网络由一个下采样模块、三个轻量化可分离非对称残差模块、一个下采样模块、两个轻量化可分离非对称残差模块、一个下采样模块、八个轻量化可分离非对称残差模块堆叠而成；其中，一个下采样模块和三个轻量化可分离非对称残差模块属于编码器主干网络浅层，一个下采样模块和两个轻量化可分离非对称残差模块属于编码器主干网络中间层，一个下采样模块和八个轻量化可分离非对称残差模块属于编码器主干网络最深层；

S202、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为W/2×H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其特征映射表示为：F1＝LLWSAR(LLWSAR(LLWSAR(Ddownsampling(f))))其中，F1表示大小为W/2×H/2的特征图，LLWSAR表示轻量化可分离非对称残差模块，Ddownsampling表示下采样模块，f表示多通道输入；

S203、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4×H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图，其特征映射表示为：F2＝LLWSAR(LLWSAR(Ddownsampling(F1)))

其中，F2表示大小为W/4×H/4的特征图；

S204、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8×H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、13、

17轻量化可分离非对称残差模块中按照步骤S201中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图，其特征映射表示为：8

其中，F3表示大小为W/8×H/8的特征图，LLWSAR表示轻量化可分离非对称残差模块堆叠

8次；

步骤S3中，生成增强的区域上下文信息特征图的具体步骤为：

S301、将编码器主干网络中间层特征图输入到轻量化注意力模块中，分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：其中，MC表示通道注意力图，F表示输入的特征图，σ表示Sigmoid函数，表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，表示在空间维度上的均值池化特征，表示在空间维度上的最大池化特征，|t|odd表示取最接近t的奇数；

S302、将通道注意力图与编码器主干网络中间层特征图进行基于Element‑Wise的乘法操作，生成通道方向上的特征图，再对其在通道维度上分别进行最大池化和平均池化，得到两个不同的空间二维特征图，将两个空间二维特征图进行拼接，生成特征描述器；使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征，生成二维空间注意力图，对其使用Sigmoid函数得到值域为[0,1]的空间注意力图，将空间注意力图与编码器主干网络中间层特征图进行基于Element‑Wise的乘法操作，生成增强的中间层特征图，具体公式为：其中，FT表示通道方向上的特征图，表示基于Element‑Wise的逐元素相乘操作，MS表示空间注意力图， 1D conv表示扩张率都为2的1×3扩张卷积和3×1扩张卷积，表示在通道维度上的均值池化特征，表示在通道维度上的最大池化特征，FR表示增强的中间层特征图；

S303、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤S301‑S302相同的操作，生成增强的最深层特征图；

S304、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组粗分割的结果，将该结果进行上采样生成一个较高分辨率的粗分割，将该较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0‑1概率的特征向量系数，将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算，生成上下文信息；

S305、对上下文信息进行1×1卷积生成关键值向量和值向量，对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量，对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作，生成增强的区域上下文信息特征图，其特征映射表示为：其中，Fenhanced表示增强的区域上下文信息特征图，Conv1×1表示1×1的卷积操作，Concat表示连接操作，Reshape表示将指定的矩阵变换成特定维数矩阵操作，softmax表示归一化指数函数，Q表示查询向量，K表示关键值向量，V表示值向量，dk表示K的维度，Finput表示输入的特征图；

矩阵运算的具体公式为：

其中，self‑Attention表示自注意力机制机制函数。

2.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S1中，对训练集图像进行预处理的具体内容为：S101、从互联网的公开数据源上获取图像数据集；

S102、利用随机缩放和随机裁剪方法对图像数据集中的图片进行图像增强处理；

S103、将增强处理后的图像调整为W×H尺寸，其中W表示图像的宽，H表示图像的高。

3.根据权利要求1所述的多尺度轻量级实时语义分割方法，其特征在于，步骤S4中，生成最终网络分割结果的具体步骤为：S401、将增强的区域上下文信息特征图进行倍率为2的双线性插值的上采样操作，生成二倍增强的区域上下文信息特征图；将编码器主干网络浅层特征图输入到轻量化注意力模块中，进行同步骤S301‑S302相同的操作，生成增强的浅层特征图；

S402、将二倍增强的区域上下文信息特征图与增强的浅层特征图进行连接操作，生成连接特征图，利用全局池化将连接特征图转换为特征向量，按顺序进行1×1卷积、Relu激活函数、1×1卷积和sigmoid激活函数操作，计算权重向量；将权重向量与连接特征图相乘得到更新后的特征图，并通过逐点求和与连接特征图相加，得到输出特征图；将输出特征图进行倍率为2的双线性插值上采样操作生成最终网络分割结果，具体公式为：W＝σ[W2δ[W1(GFn)]]；

Foutput＝WFn+Fn；

其中，Fn表示连接的特征图，ALWAM表示输入轻量化注意力模块，表示倍率为2的双线性插值的上采样操作，W表示权值向量，σ和δ分别表示sigmoid函数和Relu函数，G表示全局池化操作，W1和W2采用全连接运算，Foutput表示最终网络分割结果图。

4.一种多尺度轻量级实时语义分割系统，其特征在于，包括

图像预处理模块，用于获取互联网上公开的图像数据集，对其进行预处理；

编码器主干网络特征图生成模块，用于构建基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络，将预处理后的图片输入到该编码器主干网络中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图；

增强的区域上下文信息特征图生成模块，用于将编码器主干网络中间层特征图和最深层特征图分别输入到轻量化注意力模块中，生成增强的中间层特征图和最深层特征图，将两个增强的特征图输入到轻量化物体上下文特征融合模块中，利用目标区域的表示来增强其像素的表示，生成增强的区域上下文信息特征图；

最终网络分割结果生成模块，用于将编码器主干网络浅层特征图输入到轻量化注意力模块中，生成增强的浅层特征图，将增强的区域上下文信息特征图进行上采样操作，生成二倍增强的区域上下文信息特征图；把两者进行连接、池化、上采样操作，生成最终网络分割结果；

其中，编码器主干网络特征图生成模块中，生成编码器主干网络浅层特征图、中间层特征图和最深层特征图的具体内容为：步骤1、基于下采样模块和轻量化可分离非对称残差模块的编码器主干网络的构建：

下采样模块中，使用并联的步长为2的3×3卷积层与2×2最大池化层；

轻量化可分离非对称残差模块由两个低维分支构成，每个分支都有一半的输入通道；

其处理图像的内容为：对输入的特征图进行通道拆解操作，在左分支上使用3×1和1×3的

F(xt,Wt)＝σ(Wtxt)；

xt+1＝xt+F(xt,Wt)；

其中，xt表示网络输入值，xt+1表示网络输出值，Wt表示权重，σ表示激活函数，F()表示对应系数相乘的函数；

步骤2、将尺寸为W×H的预处理的图像输入到下采样模块中进行下采样操作，得到尺寸为W/2×H/2的特征图，再将其输入到三个扩张率分别2、3、5的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行三次特征提取，得到编码器主干网络浅层特征图，其特征映射表示为：F1＝LLWSAR(LLWSAR(LLWSAR(Ddownsampling(f))))其中，F1表示大小为W/2×H/2的特征图，LLWSAR表示轻量化可分离非对称残差模块，Ddownsampling表示下采样模块，f表示多通道输入；

步骤3、将尺寸为W/2×H/2编码器主干网络浅层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/4×H/4的特征图，再将其输入到两个扩张率分别为2、3的轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行两次特征提取，得到编码器主干网络中间层特征图，其特征映射表示为：F2＝LLWSAR(LLWSAR(Ddownsampling(F1)))

其中，F2表示大小为W/4×H/4的特征图；

步骤4、将尺寸为W/4×H/4编码器主干网络中间层特征图输入到下采样模块中进行下采样操作，得到尺寸为W/8×H/8的特征图，再将其输入到八个扩张率分别为1、2、5、9、2、5、

13、17轻量化可分离非对称残差模块中按照步骤1中轻量化可分离非对称残差模块处理图像的内容进行八次特征提取，得到编码器主干网络最深层特征图，其特征映射表示为：8

其中，F3表示大小为W/8×H/8的特征图，LLWSAR表示轻量化可分离非对称残差模块堆叠

8次；

增强的区域上下文信息特征图生成模块中，生成增强的区域上下文信息特征图的具体步骤为：步骤1、将编码器主干网络中间层特征图输入到轻量化注意力模块中，分别进行空间维度上的全局最大池化和全局平均池化操作，生成两个维数为C×1×1的空间信息描述特征图，使用卷积核长度为K的一维卷积聚合通道邻域内的K个通道的信息，将卷积后的两个空间信息描述特征图按元素相加，通过Sigmoid函数运算，生成通道注意力图，具体公式为：其中，MC表示通道注意力图，F表示输入的特征图，σ表示Sigmoid函数，表示卷积核大小为K的一维卷积操作，C表示输入特征图通道数，表示在空间维度上的均值池化特征，表示在空间维度上的最大池化特征，|t|odd表示取最接近t的奇数；

步骤2、将通道注意力图与编码器主干网络中间层特征图进行基于Element‑Wise的乘法操作，生成通道方向上的特征图，再对其在通道维度上分别进行最大池化和平均池化，得到两个不同的空间二维特征图，将两个空间二维特征图进行拼接，生成特征描述器；使用扩张率都为2的1×3扩张卷积和3×1的卷积提取特征，生成二维空间注意力图，对其使用Sigmoid函数得到值域为[0,1]的空间注意力图，将空间注意力图与编码器主干网络中间层特征图进行基于Element‑Wise的乘法操作，生成增强的中间层特征图，具体公式为：其中，FT表示通道方向上的特征图，表示基于Element‑Wise的逐元素相乘操作，MS表示空间注意力图，表示扩张率都为2的1×3扩张卷积和3×1扩张卷积，表示在通道维度上的均值池化特征，表示在通道维度上的最大池化特征，FR表示增强的中间层特征图；

步骤3、将编码器主干网络最深层特征图输入轻量化注意力模块中，进行同步骤1‑2相同的操作，生成增强的最深层特征图；

步骤4、将增强的中间层特征图和增强的最深层特征图输入到轻量化物体上下文特征融合模块中，通过一个1×1卷积改变增强的最深层特征图的通道数，得到一组粗分割的结果，将该结果进行上采样生成一个较高分辨率的粗分割，将该较高分辨率的粗分割进行reshape和softmax操作，生成一个带有0‑1概率的特征向量系数，将该系数与经过reshape操作后的增强的中间层特征图进行矩阵点乘运算，生成上下文信息；

步骤5、对上下文信息进行1×1卷积生成关键值向量和值向量，对增强的中间层特征图进行1×1卷积和reshape操作生成查询向量，对关键值向量、值向量、查询向量进行矩阵运算生成区域上下文信息，将区域上下文信息与增强的中间层特征图进行concat和1×1卷积操作，生成增强的区域上下文信息特征图，其特征映射表示为：其中，Fenhanced表示增强的区域上下文信息特征图，Conv1×1表示1×1的卷积操作，Concat表示连接操作，Reshape表示将指定的矩阵变换成特定维数矩阵操作，softmax表示归一化指数函数，Q表示查询向量，K表示关键值向量，V表示值向量，dk表示K的维度，Finput表示输入的特征图；

矩阵运算的具体公式为：

其中，self‑Attention表示自注意力机制机制函数。

5.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。

6.一种计算机可读的存储介质，所述计算机可读的存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行所述权利要求1至3中任一项所述的方法。