1.一种优化词袋模型的图像分类方法,其特征在于:包括以下步骤:步骤1:提取局部特征描述符;
对训练图像和测试图像提取密集SIFT特征并生成128维的局部特征描述符;
步骤2:生成视觉字典;
对训练图像中的局部特征描述符进行k‑means聚类生成视觉字典;
步骤3:生成显著性字典;
考虑视觉字典中视觉单词之间的内在关系,通过计算视觉单词之间的相似度,为每个视觉单词赋予一个权重,来突出显著性单词,弱化相似性单词,进而提高视觉字典整体的显著性和判别力;
步骤4:加权局部约束线性编码;
将局部特征描述符分配给最近邻的K个视觉单词并考虑局部特征描述符与近邻单词的位置关系,根据位置关系为近邻单词设置不同的加权系数,从而生成局部特征描述符通过视觉单词表示的编码系数向量;
所述步骤4包括:步骤4.1:计算局部特征描述符与视觉单词的欧式距离,寻找局部特征最近邻的K个视觉单词;
步骤4.2:通过计算K个近邻单词的位置关系,在编码过程中为每个近邻单词设置不同的权重;
步骤4.3:通过求解加权局部约束线性编码目标函数,获得图像的编码系数表示Z=M×N[z1,...,zi,...,zN]∈R ;
步骤5:空间金字塔池化;
将图像分层划分成1*1、2*2、4*4的子图像块,分别统计各子图像块中视觉单词的分布情况,并按照一定的权重聚合构成图像的向量表示;
步骤6:SVM分类;
将待分类图像的向量表示输入到HIK交叉核函数的线性SVM分类器中,对图像进行分类。
2.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤3包括:
128×M 1×M
步骤3.1:对生成的视觉字典B∈R 每列计算均值得到向量C∈R ,其中任意一个元素ci表示一个视觉单词的均值;
128×M 1×M
步骤3.2:用视觉字典B∈R 的每一列减去视觉单词均值向量C∈R ,得到视觉字典
128×M
的差值矩阵D∈R ;
T 128×M M×M
步骤3.3:通过计算E=D·D得到视觉字典B∈R 的相关性矩阵E∈R ,其中每一个元素eij表示视觉字典中视觉单词xi与视觉单词xj的相关性;
M×M M×1
步骤3.4:令F=ones(M)‑E,并对F∈R 每列求和得到G∈R ,再通过S=G./mean(G)对M×1 M×1G∈R 进行归一化,得到视觉字典的显著性表示S∈R ,其中si表示视觉单词bi的显著性;
步骤3.5:通过计算视觉单词与视觉单词显著性相乘,得到显著性字典A=[s1b1,...,
128×M
sibi,...,sMbM]∈R 。
3.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤
4.3中的通过求解加权局部约束线性编码目标函数包括:其中, 表示局部约束,通过计算局部特征与视觉单词的欧式距离选择K个近邻的视觉单词, 表示对应元素相乘,λ1表示参数,用于调节局部约束项;
其中,
2
dist(xi,aj)=||xi‑aj|| ,表示特征xi与视觉单词bj之间的欧氏距离,σ为参数,用于调节di的衰减速度;
其中, 表示位置加权约束,通过计算K个近邻单词之间的位置关系,在编码过程中为其设置不同的权重, 表示对应元素相乘,λ2表示参数,用于调节位置加权约束项;
M×1
其中, NK(xi)表示局部特征xi的K个近邻单词,wi∈R 。
4.根据权利要求1所述的一种优化词袋模型的图像分类方法,其特征在于:所述步骤
4.3中的通过求解加权局部约束线性编码目标函数包括:目标函数拉格朗日公式:
通过上述公式对zi求偏导,得到解为:其中,zi表示一幅图像中第i个局部特征的编码系数向量,求解图像中所有局部特征的编码系数向量便可得到图像由视觉字典表示的编码系数矩阵。