1.基于一致性区域深度学习特征的近重复图像检索方法,其特征在于,具体包括如下步骤:
步骤1:提取图像库中的所有图像的SIFT特征;
步骤2:利用K-means聚类法,将每个SIFT特征量化为视觉单词,将来自不同图像,且视觉单词相同的任意两个SIFT特征认为是相互匹配的;则基于视觉单词,为所有的SIFT特征建立倒排索引文件;
步骤3:利用EdgeBox算法,计算得到每个图像的目标区域,删除面积小于M/5×N/5的目标区域,所述M和N分别图像的宽和高;在剩下的目标区域中留下k个目标区域,并删除其他目标区域;利用改进CNN特征提取法计算每个目标区域的CNN特征C(Rc);
步骤4:提取查询图像的SIFT特征;利用K-means聚类方法将查询图像的SIFT特征量化为视觉单词;利用倒排索引文件,找出候选图像;所述候选图像为图像库中与查询图像之间存在5对以上的SIFT特征对;所述一对SIFT特征对由两个相互匹配的SIFT特征组成;
步骤5:根据查询图像与每个候选图像中的每个目标区域之间存在的SIFT特征对,在查询图像中找出与该目标区域近似重复的近重复区域;将该近重复区域与该目标区域组成一组近重复的区域对;
步骤6:利用改进CNN特征提取法,提取任意一组近重复的区域对中近重复区域的CNN特征C(RQ);将该组近重复的区域对中C(RQ)和C(RC)的余弦相似度作为该组的相似度评分;在每个候选图像中,选择余弦相似度最高的一组评分作为该候选图像与查询图像之间的相似度评分。
2.根据权利要求1所述的方法,其特征在于,所述步骤2或步骤4中将每个SIFT特征量化为视觉单词,具体为:对提取的所有SIFT特征进行K-means聚类,从而将所有SIFT特征划分为E个类别,每个类别用一个视觉单词表示。
3.根据权利要求1所述的方法,其特征在于,所述步骤3中对面积大于等于M/5×N/5的每个目标区域按照其所包含的SIFT特征的个数由多到少排列,选择前k个目标区域。
4.根据权利要求1所述的方法,其特征在于,所述步骤5的具体方法为:
步骤5.1:利用倒排索引文件,找出查询图像与某个候选图像中的某个目标区域之间的n对SIFT特征对;
步骤5.2:在n对SIFT特征对中随机选择ns对SIFT特征对,
Y为在n对SIFT特征对中存在Y对真实匹配的SIFT特征对,n≤Y<1;所述真实匹配的SIFT特征对由来自不同图像,且对图像的内容描述是一致的两个SIFT特征组成;P(ns)为在ns对特征对中至少有一对真实匹配的SIFT特征对的概率;
步骤5.3:根据ns对特征对中的任意一对特征对fQ=[σQ,θQ,(xQ,yQ)T]和fC=[σC,θC,(xC,yC)T],其中fQ为查询图像中的SIFT特征,σQ、θQ、(xQ,yQ)分别表示该SIFT特征的尺度、主方向和坐标;fC为目标区域中的SIFT特征,σC、θC、(xC,yC)分别表示该SIFT特征的尺度、主方向和坐标;利用如下公式确定一个近重复区域,即查询图像与该目标区域之间有ns个近重复的区域对;
其中,(uQ,vQ)T、wQ和hQ分别是查询图像中近重复区域RC的中心坐标,宽度和高度;
5.根据权利要求4所示的方法,其特征在于,所述步骤3或步骤6中提取CNN特征的方法,具体为:将任意一个目标区域/近重复区域作为AlexNet模型的输入图像,则该模型输出256个大小为W×H的特征图,即可得到维度为W×H×256的特征向量;W和H分别为该特征图的宽度和高度,且与输入图像的宽度和高度成正比;利用求和池化聚合操作将每个特征图的尺寸W×H压缩到m×m;对每256/d个大小为m×m的特征图进行合并和求和池化聚合操作,从而得到m×m×d维的特征向量,0<d<256,且d为256的倍数;最后,将生成的m×m×d维的特征向量进行L2归一化,并将归一化后的m×m×d维的特征向量作为输入图像的CNN特征。
6.根据权利要求1所示的方法,其特征在于,所述步骤6中,计算余弦相似度的方法为: