买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于Transformer轻量化模型的图像分类方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于Transformer轻量化模型的图像分类方法

面议

专利号： 202310090225X

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于Transformer轻量化模型的图像分类方法，其特征在于，包括以下步骤：

步骤S1：对ShuffleNetV2轻量化卷积神经网络的基本模块和下采样模块改进后得到ShB基本模块和ShD下采样模块；

步骤S2:基于Vision Transformer(ViT)模块提出一种局部和全局表征信息交互的ShT基本模块，具体包括：将输入ShT基本模块的特征图先经过通道分离(Channel Split)操作将通道分成两个分支，一个分支先利用多个卷积分别进行局部表征提取及通道信息提取，然后再利用若干个Transformer模块进行全局表征提取，另一分支只通过多个卷积进行局部表征提取和通道特征提取，最后将两个分支的特征图进行拼接，输出目标特征图且维度不变；ShT基本模块则既具有卷积性质，又结合了ViT中对输入特征图信息进行自适应加权和建立全局依赖；

步骤S3:结合卷积及池化操作，将ShD下采样模块、ShB基本模块和ShT基本模块进行排序，构建ShViT网络构架，实现局部和全局表征信息交互，具体包括：将输入的分类图片第一阶段先利用卷积进行第一次下采样操作，然后先利用ShB基本模块进行局部特征提取；第二阶段依次输入ShD下采样模块和ShB基本模块；第三阶段依次经过ShD下采样模块和ShT基本模块，根据输入图片的尺寸选择重复第三阶段的次数和ShT基本模块中的Transformer模块数量，第四阶段经过卷积进行通道调整及空间信息编码，接着通过全局平均池化进行维度调整，最后经过全连接层进行特征综合得到对应的分类结果。

2.根据权利要求1所述的基于Transformer轻量化模型的图像分类方法，其特征在于，所述由ShuffleNetV2网络改进得到的ShB基本模块和ShD下采样模块具体为：ShB基本模块是在ShuffleNetV2基本模块中加入了跳跃连接和注意力机制ECA，ShD下采样模块是将ShuffleNetV2下采样模块与多特征提取、注意力机制ECA和Ghost模块相结合得到。

3.根据权利要求2所述的基于Transformer轻量化模型的图像分类方法，其特征在于，步骤S1中的ShB基本模块是在用于局部表征提取的ShuffleNetV2基本模块的右分支末添加注意力机制ECA，在右分支始端到终端添加跳跃连接，在1×1卷积后的非线性激活层采用ReLU激活函数。

4.根据权利要求2所述的的基于Transformer轻量化模型的图像分类方法，其特征在于，步骤S1中ShD下采样模块的构成是通过将ShuffleNetV2下采样模块的右分支包括了注意力机制ECA、深度可分离卷积(DWConv)模块和Ghost模块，形成一个瓶颈结构，ShuffleNetV2下采样模块左分支中的1×1卷积用Ghost模块代替，ShD下采样模块的输出特征图的分辨率是输入特征图的一半。

5.根据权利要求4所述的的基于Transformer轻量化模型的图像分类方法，其特征在于，ShD下采样模块中右分支的深度可分离卷积(DWConv)模块可提取丰富的空间信息且步长可设置为为1或2，Ghost模块可以进行通道收缩和恢复，利用廉价的线性运算获得更加丰富的特征，ShD下采样模块中左分支的深度可分离卷积(DWConv)模块进行下采样操作，ShD下采样模块中的Ghost模块后都要经过ReLu非线性激活层，ReLU的计算公式为：其中x表示神经元的输入。

6.根据权利要求1所述的的基于Transformer轻量化模型的图像分类方法，其特征在于，步骤S2中ShT基本模块中含全局表征提取的分支先利用深度可分离卷积(DWConv)模块提取局部表征，1×1卷积提取通道信息，接着将特征图分割成token并展开成序列，再输入到若干个Transformer模块中进行全局特征提取，然后再将特征折叠成原特征图形式；ViT是先将块(patch)进行投影，然后用若干个Transformer模块学习块(patch)之间的全局信息，这就丢失了图像的归纳偏置信息，需要耗费更多的参数来学习，而ShT基本模块则既含有卷积性质，又结合了ViT中对输入特征图信息进行建立全局依赖。

7.根据权利要求6所述的的基于Transformer轻量化模型的图像分类方法，其特征在于，输入到若干个Transformer模块进行全局表征前先将特征图按n×n大小进行拆分成若

2 2

干个块(patch)，每个块(patch)又被分为n 个token，每个块(patch)的n 个对应位置的

token被标记成同一类token,在进行token展开时就会产生n个序列，分别依次进入若干个Transformer模块，这样的操作会减少注意力操作时的计算量。

8.根据权利要求1所述的的基于Transformer轻量化模型的图像分类方法，其特征在于，步骤S3中若输入N×M×3的RGB图像，第三阶段重复K次，每次选择若干个Transformer模块，整个网络结构共进行K+2次下采样操作，根据不同的尺寸的输入图片选择合适的第三阶段重复次数。

9.根据权利要求1所示的的基于Transformer轻量化模型的图像分类方法，其特征在于，步骤S3中，ShViT网络利用裁剪(Cutout)和Mixup进行数据增强，对数据集进行了裁剪(Cutout)、缩放(Resize)和归一化预处理，使用Adam优化器，初始学习率设置为1e‑4，分类数据集采用8:2划分训练集和测试集，通过训练及测试数据集寻找最优参数设置并进行图像分类，得到对应的分类结果。