1.一种增量语义分割方法,其特征在于包括如下步骤:S1. 获取目标图片数据集;
S2. 对步骤S1获取的目标图片数据集进行预处理,以构建训练数据集;
S3. 基于全局注意力机制、Transformer机制和自适应多尺度蒸馏机制,构建包括了编码器、解码器和蒸馏器的增量语义分割初级模型;
其中,编码器用于将输入的图片数据进行编码,以提取输入图片的特征信息;通过将Transformer机制中的注意力模块替换为全局注意力机制模块,解码器将编码器提取的特征信息进行解码,以获取全局信息;蒸馏器用于将解码器的输出进行特征蒸馏和融合操作,以最终实现语义分割;
S4. 采用步骤S2构建的训练数据集,结合嵌入损失、蒸馏损失、背景损失和交叉损失,对步骤S3构建的增量语义分割初级模型进行训练,以得到增量语义分割模型;
S5. 采用步骤S4得到的增量语义分割模型,进行实际图像的语义分割。
2.根据权利要求1所述的增量语义分割方法,其特征在于所述的步骤S3,包括如下步骤:基于Transformer机制构建编码器,用于提取输入图片的特征信息;
在解码器中,通过将背景类标记、学习到的新标记和全局标记作为特征,并输入到Transformer解码器中进行解码,以获取全局信息;其中,将Transformer解码器中的注意力模块替换为全局注意力机制模块;
基于自适应多尺度蒸馏机制构建蒸馏器,用于将解码器的输出进行特征蒸馏和融合操作,以最终实现语义分割。
3.根据权利要求2所述的增量语义分割方法,其特征在于所述的编码器,具体包括如下内容:构建的编码器包括嵌入层、线性投影层和Transformer编码器层;
嵌入层用于将输入的图像分割为若干个视觉块,并将视觉块输入到线性投影层;
线性投影层用于将输入的视觉块进行线性投影,以将输入的视觉块映射到高维表示向量中,并将得到的数据信息输入到Transformer编码器层;
Transformer编码器层用于根据输入的数据信息,提取输入的图像的特征信息和依赖关系,得到对应的编码器结果。
4.根据权利要求3所述的增量语义分割方法,其特征在于所述的解码器,具体包括如下内容:构建的解码器包括特征构建层和Transformer解码器层;
特征构建层用于构建Transformer解码器层所需要的特征信息;特征构建层构造的特征包括待学习的目标类标记 和待学习的全局标记 ,并将构造的 、 和编码器结果一同输入到Transformer解码器层;其中,目标类标记 表示为 ,其中 为背景类标记, 为当前第t轮训练时学习到的新类别的标记;全局标记 用于汇聚并表示当前任务的全局知识,第一次训练前,将全局标记 进行初始化为设定值 ,在进行当前第t轮训练时,全局标记 的取值为第t‑1轮训练得到的全局标记值 ;
Transformer解码器层用于根据 和 ,对编码器结果进行解码,以获取全局信息;在Transformer解码器层中,将Transformer解码器中的注意力模块替换为全局注意力机制模块,以实现全局信息的获取;
解码器的输出包括解码器特征和背景类标记特征,其中解码器特征为编码器结果通过解码器处理后得到的特征,背景类标记特征为 通过解码器处理后得到的特征。
5.根据权利要求4所述的增量语义分割方法,其特征在于所述的全局注意力机制模块,具体包括如下内容:在当前第t轮训练时,将编码器结果 与当前第t轮训练时学习到的新类别的标记 进行拼接并得到第一拼接特征 ;将 进行归一化处理得到归一化第一拼接特征 ,并将作为查询 的值;将 与当前第t轮训练的全局标记的值 进行拼接并得到第一拼接标记 ,并作为键 的值和值 的值;
全局注意力机制模块的处理过程表示为: 式
中 为全局注意力机制模块的输出; 为输出层的权重矩阵; 为多层感知机的处理函数; 为两个串联的掩码归一化层的处理函数; 为输出层的偏置项; 为中间特征,且, 为softmax函数,d为嵌入尺寸,h为注意力头的数量。
6.根据权利要求5所述的增量语义分割方法,其特征在于所述的蒸馏器,具体包括如下内容:蒸馏器包括重塑层、相似度计算层、上采样层和归一化层;
在当前第t轮训练时,将解码器特征 通过重塑层进行重塑后得到重塑特征 ;将与背景类标记特征 通过相似度计算层计算得到余弦相似度;将得到的余弦相似度在通过上采样层进行上采样后,再通过归一化层进行归一化层处理,得到最终的分割预测结果;
其中,归一化层采用softmax函数进行归一化处理。
7.根据权利要求6所述的增量语义分割方法,其特征在于步骤S4所述的训练,包括如下步骤:在当前第t轮训练时,基于当前的背景类标记特征和上一轮的背景类标记特征的余弦相似度,计算得到嵌入损失;
在当前第t轮训练时,基于当前的重塑特征在不同尺度的特征分割结果与上一轮的重塑特征在不同尺度的特征分割结果的余弦相似度,计算得到蒸馏损失;
在当前第t轮训练时,基于当前的背景输出和上一轮的背景输出之间的KL散度,以及当前的边界区域与上一轮的边界区域之间的差异,计算得到背景损失;
在当前第t轮训练时,基于当前的分割预测结果、当前的真实值和上一轮的分割预测结果,计算得到交叉损失;
最终,将得到的嵌入损失、蒸馏损失、背景损失和交叉损失进行加权求和,作为当前第t轮训练的总损失函数;
采用得到的总损失函数进行训练。
8.根据权利要求7所述的增量语义分割方法,其特征在于步骤S4所述的训练,具体包括如下步骤:嵌入损失:
在当前第t轮训练时,采用如下算式计算得到嵌入损失 :式中 为当前第t轮训练时旧类别的总数;
为当前的第i个背景类标记特征; 为上一轮的第i个背景类标记特征; 为余弦相似度计算函数;
蒸馏损失:
将重塑特征 在设定的尺度s上进行分割;然后在每个分割尺度上,对分割后的特征进行高度方向和宽度方向的平均池化操作,表示为:式中 为尺度s下的高度方向池化嵌入结果;H为重塑特征 的高度; 为 在高度为h、宽度为w且通道为c处的值; 为尺度s下的宽度方向池化嵌入结果;W为重塑特征 的宽度;
在每个尺度下,将得到的高度方向池化嵌入结果和宽度方向池化嵌入结果进行拼接,得到对应尺度下的池化嵌入结果;
将各个尺度下的池化嵌入结果进行拼接,得到高维特征表示 ;
在当前第t轮训练时,采用如下算式计算得到蒸馏损失 :式中 为可靠性映射结果,且取值为当前的伪标
签和上一轮的分割预测结果的余弦相似度值; 为当前的高维特征表示在高度为h、宽度为w处的值; 为上一轮的高维特征表示在高度为h、宽度为w处的值; 为欧几里得距离;
背景损失:
在当前第t轮训练时,采用如下算式计算得到背景损失 :式中 为第 一权 重值 ; 为 第 二权 重值 ; 为背 景置 信 度损 失,且,N为背景像素的总数,bg为背景像素, 为背景置信度权重,为当前第t轮训练时模型在像素i上的输出概率分布, 为第t‑1轮训练时模型在像素i上的输出概率分布, 为KL散度计算量,且 ,C为当前任务中的类别总数, 为新模型在像素i上对类别c预测概率的最大值, 为旧模型在像素i上对类别c预测概率的最大值; 为边界区域损失,且,M为边界区域像素的总数量,T为边界区域像素, 为当前第t轮训练时边界区域像素ii的重塑特征, 为第t‑1轮训练时边界区域像素ii的重塑特征;
交叉损失:
在当前第t轮训练时,采用如下算式计算得到交叉损失 :式中 为伪标签,且取值为第iii个像素在第t‑1轮训练时分类类别为c的分割预测结果与当前第t轮训练时第iii个像素的真实值的融合值; 为第iii个像素在当前第t轮训练时分类类别为c的分割预测结果;
采用如下算式计算得到总损失函数L: 式
中 为嵌入损失权重值; 为蒸馏损失权重值; 为背景损失权重值; 为交叉损失权重值;
最终,采用总损失函数L进行训练。
9.一种包括了权利要求1 8之一所述的增量语义分割方法的自动驾驶图像语义分割方~法,其特征在于包括如下步骤:
A. 获取待分割的自动驾驶图像;
B. 采用所述的增量语义分割方法,对步骤A获取的自动驾驶图像进行语义分割;
C. 根据步骤B得到的语义分割结果,完成自动驾驶图像的语义分割。