1.基于可分离卷积块和空间缩减注意力机制的图像分类方法,其特征在于:该方法包括以下步骤:S1:获得图像分类原始数据集,并将其划分为训练样本集与测试样本集;
S2:预处理上述图像分类训练样本集,构建训练数据集;
S3:搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类网络模型,包括特征提取模块和空间缩减注意力机制模块,通过交叉深度可分离卷积块嵌入提取特征以及空间缩减注意力机制提取图像信息;
S4:利用上述训练数据集对所描述的交叉深度可分离卷积块嵌入对图像进行分块并通过空间缩减注意力机制进行训练,获得相应图像分类模型;
S5:利用S4所获得的图像分类模型对测试样本集中的各类图像进行推理预测,得到最后的分类结果。
2.根据权利要求1所述基于可分离卷积块和空间缩减注意力机制的图像分类方法,其特征在于:所述S3中,搭建基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类网络模型具体为:S311:对于输入的图像,利用交叉深度可分离卷积操作将图像分为固定大小的patch,操作减少每次卷积操作的计算量;
S312:空间缩减注意力机制计算:图像在经过交叉深度可分离卷积块嵌入操作之后,接着进行空间缩减操作、归一化操作,之后对一系列操作后的数据进行位置信息嵌入,便于图像序列的查找;进行空间缩减注意力机制计算;对于输入信息:o
SRA(Q,K,V)=Concat(head0,...headNi)Wo
对于输入信息的维度为Ci的数据,将其分为Ni个头部,每一个头部的维度为 W为空间缩减投影参数,将输入数据映射到一个新的特征空间中;
当多头注意力机制的head划分完成之后,对于第j个头headj,在计算时与传统的多头注意力机制不同之处在于对于序列Q以及键K的空间缩减变换,SR(Q)以及SR(K)是分别对序列Q和键K进行空间尺度下采样操作; 以及 分别是Q、K、V的投影矩阵;Attention(·)则是注意力机制的计算,将 和 相乘的结果进行归一化操作,结果再与 对应位置相乘并求和,最终得到headj;
空间尺度下采样操作SR(·):
S
SR(x)=Norm(Reshape(x,Ri)W)
Ri为空间下采样倍率,x是进行下采样数据的输入,计算过程中会对x进行 下采样,因此计算时会大幅缩减计算量,从而加快计算速度;Reshape(·)操作是将x的大小进行重塑,S方便后续进行计算;W 是一个空间缩减投影操作,主要目的是将输入序列进行降维;Norm(·)是指Layer Normalization,即层归一化,具体来说,对于输入的一个样本,LayerNormalization计算特征维度上的均值和标准差,然后将所有特征都进行归一化,使得它们的均值为0,标准差为1;这样做的好处是可以使得网络对于每个样本的输入保持一致的分布特性,减少样本间的耦合,有助于提升模型的泛化性能;即是SR(·)的详细计算过程。
3.根据权利要求2所述基于可分离卷积块和空间缩减注意力机制的图像分类方法,其特征在于:所述S3中,网络模型的具体构建流程为:S321:交叉深度可分离卷积提取特征:将输入的图像通过交叉深度可分离卷积操作由不同的通道分别进行分块;
S322:位置信息嵌入:首先将S321所得的图像块经过Linear()操作改变图像维度,在经过Norm()操作对图像块进行归一化,将前面的结果输入CPE模块进行位置信息嵌入,便于后续的序列信息的查找;
S324:空间缩减注意力机制操作:对于嵌入位置信息的图像块,先将其进行备份,再次经过Norm()归一化操作,之后进入SRA()空间缩减注意力机制模块,计算之后的结果再与备份数据进行残差操作以保留细节信息,得到相应的特征图;
S324:前向传播过程:将S323的输出先进行备份,再通过一次Norm()操作,之后放入前向传播模块,输出的结果与备份数据进行残差求和,最终输出结果;至此完成网络的一个阶段。
4.根据权利要求2所述的一种基于交叉深度可分离卷积块嵌入和空间缩减注意力机制的图像分类方法,其特征在于:所述网络模型包括Large、medium、small和tiny四种模型。