利索能及
我要发布
收藏
专利号: 2025112052857
申请人: 临沂大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,包括以下步骤:S1.收集复杂的智能家居场景图像,构建智能家居图像语义分割数据集,数据集中的图像包括分割区域和分割区域标签,按比例将数据集划分为训练集和测试集;

S2.异构特征提取:构建基于Transformer架构的教师语义分割模型和基于卷积神经网络架构的学生语义分割模型,两模型分别对训练集中的智能家居场景图像进行特征提取,得到预测的语义分割图,提取的特征包括教师语义分割模型提取的浅层特征和深层特征,学生语义分割模型提取的浅层特征和深层特征;

S3.浅层异构特征对齐:构建边缘特征对齐模块EAM,对教师语义分割模型提取的浅层特征和学生语义分割模型提取的浅层特征进行对齐,得到边缘特征对齐损失;

S4.深层异构特征对齐:构建基于交叉注意力的深层特征对齐模块CAAM对教师语义分割模型提取的深层特征和学生语义分割模型提取的深层特征进行对齐,得到深层特征对齐损失;

S5. 学生语义分割模型训练:将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数,同时冻结教师语义分割模型中的参数,将学生语义分割模型的损失函数回传至学生语义分割模型进行参数更新;

S6、将测试集中智能家居场景图像输入到更新后的学生语义分割模型中,得到更新后的学生语义分割模型输出的预测的语义分割图。

2.根据权利要求1所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S1具体如下:智能家居图像语义分割数据集表示为 , 表示数据集中第张智能家居场景图像,数据集中共K张智能家居场景图像,将智能家居图像语义分割数据集中图像按像素进行分割,智能家居场景图像中像素点表示为 ,对应的像素点标签表示为 ,整张图的像素是一个二维矩阵的真值标签 , ;

按比例将数据集划分为训练集和测试集,训练集表示为

, , 表示训练集中第 张智能家居场景图

像,训练集中共 张图像,测试集表示为 , , 表示测试集中第 张智能家居场景图像,测试集中共 张图像, 。

3.根据权利要求2所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于, S2具体如下:S2.1、模型的结构组成:

教师语义分割模型采用基于Transformer编码器的SegFormer语义分割模型,包括四个Transformer编码器、特征融合层、解码输出层三部分,Transformer编码器具体由自注意力层、残差连接层和归一化层组成;

学生语义分割模型采用基于卷积神经网络的DeepLabV3语义分割模型,包括四个卷积编码层、特征融合层、解码输出层三部分;

S2.2、将训练集中的智能家居图像输入至教师语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:S2.2.1、将训练集中的智能家居场景图像输入至教师语义分割模型前,先通过卷积层对输入的图像 进行处理,表示训练集中任意一张智能家居场景图像,将图像 的分辨率由 转换为 ,H表示图像的高度,W表示图像的宽度,再将调整过分辨率后的图像 重映射为初始块嵌入的形式,图像 的初始嵌入块表示为 ,初始嵌入块 中包含若干个像素块;

S2.2.2、将初始块嵌入 输入至教师语义分割模型,初始块嵌入 首先经过第一个Transformer编码器,通过Transformer编码器内的自注意力层计算初始块嵌入 中各像素块之间的相似度,进而得到相似度矩阵,再将相似度矩阵与初始块嵌入 进行矩阵相乘,获得到与初始块嵌入 维度大小一致特征 ;

再将初始块嵌入 和特征 输入至残差连接层,通过对初始块嵌入 和特征 进行残差连接来保留重要信息,然后再将初始块嵌入 和特征 输入至归一化层,对 和特征 进行归一化操作得到特征 ;

对特征 进行比例缩放,通过将特征 的数值调整至特定范围来消除数据特征之间数量级的差异,范围为0 1或者‑1 1最后得到比例缩放后的特征 ,第一个Transformer编码~ ~器的输出 为教师语义分割模型提取的浅层特征;

S2.2.3、将第一个Transformer编码器的输出特征 作为第二个Transformer编码器的输入,按照步骤S2.2.2的操作对特征 进行相同的处理得到特征 ;

同理,将上一个Transformer编码器的输出作为下一个Transformer编码器的输入,并进行步骤S2.2.2中的操作,得到第三个Transformer编码器输出的特征 和第四个Transformer编码器输出的特征 ,第四个Transformer编码器的输出 为教师语义分割模型提取的深层特征;

S2.2.4、将四个Transformer编码器的输出 、 、 和 输入至特征融合层,在特征融合层中,对四个特征向量进行上采样操作,匹配第一个Transformer编码器输出的特征的分辨率,然后将四个上采样结果在特征维度堆叠得到特征 ,再对特征 进行特征维度缩减,得到融合的特征 ,特征 的维度大小为 , 表示特征 的高度, 表示特征 的宽度, 表示特征 的通道数,将特征 在通道维度上进行归一化操作,则特征中每个像素点语义分割的类别数为 个,每个类别对应一个概率值;

S2.2.5、将特征 输入至解码输出层中,在解码输出层中,将特征 中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图 。

4.根据权利要求3所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于:S2.3、将训练集中的智能家居场景图像输入至学生语义分割模型进行特征提取,得到浅层特征和深层特征,具体过程如下:将图像 输入至学生语义分割模型,表示训练集中任意一张智能家居场景图像,图像首先经过第一个卷积编码器,通过卷积编码器对图像 卷积、池化、批规范化处理得到特征,然后将第一个卷积编码器输出的特征 输入至第二个卷积编码器,通过卷积、池化、批规范化处理得到特征 ,同理第三个卷积编码器输出特征 ,第四个卷积编码器输出特征,第一个卷积编码器的输出 为学生语义分割模型提取的浅层特征,第四个卷积编码器的输出 为学生语义分割模型提取的深层特征;

在特征融合层中,分别对四个卷积编码器输出的特征 、 、 和 进行膨胀卷积操作,并匹配第一个卷积编码器的分辨率,再将所有经过膨胀卷积操作后的特征图在通道维度堆叠得到特征 ,接着对特征 进行特征通道维度缩减,得到融合后的特征 ,特征 的维度大小为 , 表示特征 的高度, 表示特征 的宽度, 表示特征 的通道数,将特征 在通道维度上进行归一化操作,则特征 中每个像素点语义分割的类别数为个,每个类别对应一个概率值;

将特征 输入至解码输出层中,在解码输出层中,将特征 中每个像素点中类别概率值最大的类别赋值给相应像素点,进而得到预测的语义分割图 。

5.根据权利要求4所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S3具体如下:边缘特征对齐模块EAM包括水平边缘提取、竖直边缘提取、1×1卷积、边缘特征对其损失计算单元;

S3.1、将教师语义分割模型提取的浅层特征 由嵌入块形式重映射到与学生语义分割模型提取的浅层特征 一致的特征图形式,计算过程如下:,

其中, 表示将教师语义分割模型提取的浅层特征 的维度缩放至与学生语义分割模型提取的浅层特征 的维度一致, 表示由块嵌入形式重映射到特征图形式的操作, 表示批大小,和 分别表示教师语义分割模型在Transformer解码器中的图像长、宽方向上的分块个数, 表示图形式的教师语义分割模型提取的浅层特征;

S3.2、图形式的教师语义分割模型提取的浅层特征 和学生语义分割模型提取的浅层特征 输入至边缘特征对齐模块EAM,分别在特征图的通道维度上取均值,计算过程如下:,

其中, 表示取均值操作, =1表示在维度1上进行取均值操作, 表示取均值后学生语义分割模型提取的浅层特征, 表示取均值后教师语义分割模型提取的浅层特征;

S3.3、通过两个不同的3×3卷积核分别提取特征 和特征 的水平边缘特征和竖直边缘特征,计算过程如下:,

其中, 表示特征 的水平边缘特征, 表示特征 的竖直边缘特征,表示特征 的水平边缘特征, 表示特征 的竖直边缘特征,表示进行水平方向卷积操作, 表示进行竖直方向卷积操作,表示提取水平边缘特征的卷积操作 的参数初始化值, 是表示提取竖直边缘特征的卷积操作 的参数初始化值;

S3.4、再使用1×1卷积模块对经过3×3卷积核的水平、竖直边缘特征进行卷积操作得到的学生模型的水平边缘特征 、学生模型的竖直边缘特征 、教师模型的水平边缘特征 和教师模型的竖直边缘特征 进行计算,计算过程如下:,

其中, 表示1×1卷积模块的操作, 表示经卷积操作后的水平边缘特征, 表示经卷积操作后的竖直边缘特征, 表示经卷积操作后的水平边缘特征, 表示经卷积操作后的竖直边缘特征;

S3.5、分别对卷积后得到的四个特征进行均方误差计算,得到边缘特征对齐损失,计算过程如下:,

其中, 表示边缘特征对齐损失, 表示均方误差操作。

6.根据权利要求5所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S4中基于交叉注意力的深层特征对齐模块CAAM的操作具体如下:S4.1、将教师语义分割模型提取的深层特征 由嵌入块形式重映射到与学生语义分割模型提取的深层特征 一致的特征图形式,计算过程如下:,

其中, 表示将教师语义分割模型提取的深层特征 的维度缩放至与学生语义分割模型提取的深层特征 的维度一致, 表示由块嵌入形式重映射到特征图形式的操作, 表示批大小,和 分别表示教师语义分割模型在该Transformer解码器中图像长、宽方向上的分块个数, 表示重映后的教师语义分割模型提取的深层特征;

S4.2、将学生语义分割模型提取的深层特征 降采样到与特征 相同的分辨率,再与重映射后的教师语义分割模型提取的深层特征 进行由特征图形式重映射到块嵌入形式的操作,计算过程如下:,

其中, 表示降采样后的学生语义分割模型提取的深层特征, 表示降采样操作, 表示由特征图形式重映射到块嵌入形式的操作, 表示重映射后得到的学生语义分割模型提取的深层特征, 表示再次重映射后得到的教师语义分割模型提取的深层特征;

S4.3、将重映射后得到的学生模型深层特征 的块嵌入序列作为查询输入,将再次重映射后得到的教师模型深层特征 作为键输入,两者进行转置相乘,得到融合后的深层特征 ,再将融合后的深层特征通过1×1的卷积核,得到特征 ,计算公式如下:

S4.4、将输入图像 整张图的真值标签 进行重映射,并使真值标签 维度转换为特征 的维度,计算过程如下:,

其中, 表示经过重映射后的真值标签特征, 表示由特征图形式重映射到块嵌入形式的操作;

S4.5、将经过重映射后的真值标签特征 通过全连接层,使重映射后的真值标签特征降低分辨率至与教师语义分割模型提取的深层特征 的分辨率相同,进而得到降低分辨率后的真值标签特征 ;

然后将降低分辨率后的真值标签特征 作为查询输入和键输入,进行转置相乘,得到标签的自注意力图特征 ,最后将标签自注意力图特征通过1×1卷积核,得到最终的标签特征 ,计算过程如下:,

其中, 表示全连接层操作, 表示标签自注意力图特征, 表示1×1卷积操作, 表示最终的标签特征;

最后计算特征 和特征 的均方误差,得到深层特征对齐损失,计算过程如下:

7.根据权利要求6所述面向智能家居图像语义分割任务的异构特征知识蒸馏方法,其特征在于,S5具体如下:计算步骤S2.3中学生语义分割模型得到的预测的语义分割图 与输入图像 对应的真值标签 之间的损失,得到学生语义分割模型的分割任务损失 ,计算过程如下:,

其中,表示训练集中图像数量, 表示训练集中第 张图像对应的预测的语义分割图像, 表示训练集中第 张图像对应的真值标签, 表示交叉熵损失函数运算;

然后将边缘特征对齐损失和深层特征对齐损失以及学生语义分割模型的分割任务损失进行合并,得到学生语义分割模型的损失函数 ,计算过程如下:。