利索能及
我要发布
收藏
专利号: 202310090225X
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于Transformer轻量化模型的图像分类方法,其特征在于,包括以下步骤:

步骤S1:对ShuffleNetV2轻量化卷积神经网络的基本模块和下采样模块改进后得到ShB基本模块和ShD下采样模块;

步骤S2:基于Vision Transformer(ViT)模块提出一种局部和全局表征信息交互的ShT基本模块,具体包括:将输入ShT基本模块的特征图先经过通道分离(Channel Split)操作将通道分成两个分支,一个分支先利用多个卷积分别进行局部表征提取及通道信息提取,然后再利用若干个Transformer模块进行全局表征提取,另一分支只通过多个卷积进行局部表征提取和通道特征提取,最后将两个分支的特征图进行拼接,输出目标特征图且维度不变;ShT基本模块则既具有卷积性质,又结合了ViT中对输入特征图信息进行自适应加权和建立全局依赖;

步骤S3:结合卷积及池化操作,将ShD下采样模块、ShB基本模块和ShT基本模块进行排序,构建ShViT网络构架,实现局部和全局表征信息交互,具体包括:将输入的分类图片第一阶段先利用卷积进行第一次下采样操作,然后先利用ShB基本模块进行局部特征提取;第二阶段依次输入ShD下采样模块和ShB基本模块;第三阶段依次经过ShD下采样模块和ShT基本模块,根据输入图片的尺寸选择重复第三阶段的次数和ShT基本模块中的Transformer模块数量,第四阶段经过卷积进行通道调整及空间信息编码,接着通过全局平均池化进行维度调整,最后经过全连接层进行特征综合得到对应的分类结果。

2.根据权利要求1所述的基于Transformer轻量化模型的图像分类方法,其特征在于,所述由ShuffleNetV2网络改进得到的ShB基本模块和ShD下采样模块具体为:ShB基本模块是在ShuffleNetV2基本模块中加入了跳跃连接和注意力机制ECA,ShD下采样模块是将ShuffleNetV2下采样模块与多特征提取、注意力机制ECA和Ghost模块相结合得到。

3.根据权利要求2所述的基于Transformer轻量化模型的图像分类方法,其特征在于,步骤S1中的ShB基本模块是在用于局部表征提取的ShuffleNetV2基本模块的右分支末添加注意力机制ECA,在右分支始端到终端添加跳跃连接,在1×1卷积后的非线性激活层采用ReLU激活函数。

4.根据权利要求2所述的的基于Transformer轻量化模型的图像分类方法,其特征在于,步骤S1中ShD下采样模块的构成是通过将ShuffleNetV2下采样模块的右分支包括了注意力机制ECA、深度可分离卷积(DWConv)模块和Ghost模块,形成一个瓶颈结构,ShuffleNetV2下采样模块左分支中的1×1卷积用Ghost模块代替,ShD下采样模块的输出特征图的分辨率是输入特征图的一半。

5.根据权利要求4所述的的基于Transformer轻量化模型的图像分类方法,其特征在于,ShD下采样模块中右分支的深度可分离卷积(DWConv)模块可提取丰富的空间信息且步长可设置为为1或2,Ghost模块可以进行通道收缩和恢复,利用廉价的线性运算获得更加丰富的特征,ShD下采样模块中左分支的深度可分离卷积(DWConv)模块进行下采样操作,ShD下采样模块中的Ghost模块后都要经过ReLu非线性激活层,ReLU的计算公式为:其中x表示神经元的输入。

6.根据权利要求1所述的的基于Transformer轻量化模型的图像分类方法,其特征在于,步骤S2中ShT基本模块中含全局表征提取的分支先利用深度可分离卷积(DWConv)模块提取局部表征,1×1卷积提取通道信息,接着将特征图分割成token并展开成序列,再输入到若干个Transformer模块中进行全局特征提取,然后再将特征折叠成原特征图形式;ViT是先将块(patch)进行投影,然后用若干个Transformer模块学习块(patch)之间的全局信息,这就丢失了图像的归纳偏置信息,需要耗费更多的参数来学习,而ShT基本模块则既含有卷积性质,又结合了ViT中对输入特征图信息进行建立全局依赖。

7.根据权利要求6所述的的基于Transformer轻量化模型的图像分类方法,其特征在于,输入到若干个Transformer模块进行全局表征前先将特征图按n×n大小进行拆分成若

2 2

干个块(patch),每个块(patch)又被分为n 个token,每个块(patch)的n 个对应位置的

2

token被标记成同一类token,在进行token展开时就会产生n个序列,分别依次进入若干个Transformer模块,这样的操作会减少注意力操作时的计算量。

8.根据权利要求1所述的的基于Transformer轻量化模型的图像分类方法,其特征在于,步骤S3中若输入N×M×3的RGB图像,第三阶段重复K次,每次选择若干个Transformer模块,整个网络结构共进行K+2次下采样操作,根据不同的尺寸的输入图片选择合适的第三阶段重复次数。

9.根据权利要求1所示的的基于Transformer轻量化模型的图像分类方法,其特征在于,步骤S3中,ShViT网络利用裁剪(Cutout)和Mixup进行数据增强,对数据集进行了裁剪(Cutout)、缩放(Resize)和归一化预处理,使用Adam优化器,初始学习率设置为1e‑4,分类数据集采用8:2划分训练集和测试集,通过训练及测试数据集寻找最优参数设置并进行图像分类,得到对应的分类结果。