1.一种基于自注意力深度网络的商品识别方法,其特征在于包括如下步骤:
步骤1、取商品数据作为数据集,将数据集分为训练集、测试集和验证集,利用元学习思想以及小样本学习方法对商品数据集处理,将训练集、测试集和验证集分别分为不同的多个任务,每一个任务再分为支持集和查询集,同时进行数据增强;
步骤2、利用自注意力机制增强卷积神经网络,对步骤1中增强后的数据提取特征,首先提取支持集的特征,并计算提取好的支持集特征中每一类的类原型,然后提取查询集的特征;利用自注意力机制增强卷积神经网络,形成注意力增强深度卷积网络,将此网络作为特征提取结构,并将步骤1中处理好的数据送入到此结构中进行特征提取,首先提取支持集的特征,并计算提取好的支持集特征中每一类的类原型,然后提取查询集的特征;具体步骤如下:利用自注意力机制增强卷积神经网络,形成注意力增强深度卷积网络,将此网络作为特征提取结构,并将步骤1中处理好的数据送入到此结构中进行特征提取,提取图像的特征,并利用提取好的特征计算每一类的类原型,计算自注意力首先需要计算三个矩阵:HW*C
Query、Key和Value矩阵,给定一个形状为(H,W,C)的输入张量,设为X,则X∈R ,Query、Key和Value的计算方法如(2)所示:其中Wq,Wk和Wv是权重矩阵,且 其初始值是随机生
成的,然后计算自注意力得分,自注意力打分模型s(xi,q)包括加性模型、点积模型、缩放点积模型和双线性模型,依据图像信息的性质,选择缩放点积模型计算自注意力得分,缩放点积模型的计算公式如(3)所示:dk称为缩放因子,
令Query=Q,Key=K,Value=V,计算得到注意力得分Oh如(4)所示:将计算得到的多个自注意力连接形成多头自注意力MHA,如(5)所示:
MHA=Concat[O1,...,ONh] (5)将计算得到的多头自注意力用于增强卷积神经网络,首先将输入的图像分为两部分,一部分输入到卷积神经网络,提取特征得到特征图,另一部分输入到自注意力结构,计算多头自注意力图,而后将二者进行连接,得到自注意力增强卷积的结构,再将此结构用于深度神经网络中,取代部分的卷积层,形成自注意力深度网络,在自注意力卷积模块后需要做批归一化处理,把每层神经网络任意神经元经过这个输入值的分布强行拉回到均值为0方差为1的标准正态分布;将批归一化的特征送入到激活函数中,采用的激活函数为Gelu激活函数,Gelu激活函数是在原有Relu激活函数的基础上,加入了随即正则的思想,能够增加模型的泛化能力,其表达式如式(6)所示,将步骤1处理后商品数据集中每一个task的支持集经过结构提取特征后,得到不同类别商品的特征,利用不同的特征计算出小样本商品中每一类的类原型c,类原型定义为该类在特征空间的平均值,故类k的原型利用式(7)求得:其中|Sk|表示类k中样本的数量,(mi,ni)为样本的特征向量和标签;
步骤3、将步骤2中计算好的类原型和提取的查询集的特征输入到元学习度量分类器中;步骤3中的度量分类器采用加权马氏距离作为度量特征间相似程度的距离度量公式,将马氏距离公式中协方差分为类内和类间协方差,并进行加权求和,得到最终距离;具体步骤如下:商品数据集数据集为小样本数据集,选择度量学习中的度量方法作为分类器,度量学习分类器是将图像映射到一个度量空间并使用某种度量方法度量不同样本间的差异,数据点x,y之间的马氏距离如式(9)所示:Γ
其中∑为协方差矩阵,将协方差矩阵分为类内协方差矩阵 和类间协方差矩阵∑ ,∑的计算公式如式(10)所示:其中λ为(0,1)的比例系数,计算方式如式(11)所示:
k
其中|SΓ |表示支持集中的每一类中的样本数量;将查询集中的每张图片经过步骤2的自注意力深度网络提取特征后与支持集中每一类的类原型进行距离度量,将利用加权马氏距离计算得到的距离DY送入softmax函数中进行分类,得到每张图片X'属于某一类Y分类的概率计算公式如式(12)所示:步骤4、采用元学习的算法训练特征提取器和分类器,并利用反向传播算法迭代更新参数,最终利用验证集验证模型,选取最佳模型;
步骤5、将最佳模型用于测试集中进行识别。
2.根据权利要求1所述的一种基于自注意力深度网络的商品识别方法,其特征在于:通过元学习思想以及小样本学习方法,取步骤1中的数据集中部分单品图和部分结算图作为小样本数据集,并将小样本数据集中的单品图作为训练集和验证集,将部分结算图作为测试集。
3.根据权利要求2所述的一种基于自注意力深度网络的商品识别方法,其特征在于:对小样本数据集中的数据做mixup处理。