利索能及
我要发布
收藏
专利号: 2017103552977
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于语义分割场景的示例搜索方法,其特征在于包含以下步骤:步骤1:输入数据集样本矩阵X,X是n*d维的矩阵,n是示例的个数,d是图片特征的维度,并输入图片集对应的语义类标记矩阵Y,Y是n*c维的矩阵,n是示例个数,c是类标记的数量;

步骤2:从数据集中随机抽取一部分示例作为抽样示例集,通过计算示例和抽样示例之间的相似度,减少计算时间开销,提高算法的效率;

步骤3:对于数据集中的每一个示例,引入语义一致性构建目标函数表达式O(A),其中A是d*d维的矩阵,d是图片特征的维度,是在编码阶段需要的马氏距离度量矩阵,通过特征值求解方式求最优解,即得到最优化的距离度量矩阵A;

步骤4:对于每一个示例样本x,用距离度量矩阵A乘以示例样本x和抽样示例之间的距离,得到距离度量学习后的优化距离,然后再利用哈希技术进行编码,将示例由原始的d维特征压缩映射成k维的二进制编码;

步骤5:对于一个新的查询图片q,具有标记c1和c2,要定位标记c1,首先用步骤3中训练得到的距离度量矩阵A乘以图片q中标记c1对应的示例和抽样示例之间的相似度,得到引入语义一致性之后的优化距离,再通过编码函数计算出查询示例的二进制编码,与图片数据集中各示例的二进制编码比较汉明距离,如果汉明距离小于设定的门限阈值r,即认为两示例是近似示例,返回示例所在的图片包,就可以追踪标记c1的近邻图片。

2.根据权利要求1所述的基于语义分割场景的示例搜索方法,其特征在于步骤3具体包含以下步骤:步骤1:在计算优化距离时,若图片数据集中包含n张示例,定义示例间的马氏距离D是一个n*m维的矩阵,关系矩阵中的每一个元素定义为:D(xi,uj)=(xi-uj)TA(xi-uj)  (1)上式中A表示需要学习的马氏距离度量矩阵,xi表示数据集中的第i个示例,uj表示抽样示例集中的中的第j个示例;

步骤2:定义目标函数式O(A)为:

其中yij表示第i个示例样本的类标记向量,类标记向量是c维的列向量,c是类的数目,向量中元素的值为1或0,分别表示示例属于这个类和不属于这个类,和第j个抽样示例样本的类标记向量是否一致,一致为1,不一致为0,xi代表第i个示例,uj代表第j个抽样示例;

步骤3:采用求解特征值的方法求最优解,马氏距离度量矩阵A的初始值为单位阵,A的可行域为Λr={A=WWT|WTW=Ir,W∈Rd×r}那么对于任意半正定矩阵M,xi,xj(列向量)之间的马氏距离为:即有:

T T

(xi-uj) A(xi-uj)=tr((xi-uj)(xi-uj) A)=tr((xi-uj)(xi-uj)TWWT)  (6)=tr(WT(xi-uj)(xi-uj)TW)

目标优化函数可转化为:

其中:

求解最优化问题:

T

min tr(WEW)

s.t.WTW=Ir  (9)

W∈Rd×r

拉格朗日乘子法将限制条件引入目标函数,得到拉格朗日函数:令导数为0:

W的最优解即为矩阵(E+ET)/2的前r个特征值对应的特征向量,A=WWT。

3.根据权利要求1或2所述的基于语义分割场景的示例搜索方法,其特征在于步骤4具体包含以下步骤:步骤1:得到距离马氏距离度量矩阵A后,再通过式1计算出每张示例和抽样示例之间的距离,即得到了关系矩阵Z的各个元素的值;

步骤2:设抽样图片集合中示例的数量为m,构造一个m*m维的M矩阵,M矩阵定义如下:M=Λ-1/2ZTZΛ-1/2  (12)

其中Λ=diag(ZT1),是一个对角矩阵,计算得到M矩阵前k个最大的特征值组成的k*k维的对角矩阵:Σ=diag(δ1,...,δk)∈Rk×k和前k个最大的特征值对应的特征向量组成的m*k维的矩阵:V=[v1,...,vk]∈Rm×k;

步骤3:

由上式得到的各矩阵,构造出最终的编码矩阵Y,Y矩阵定义如下:Y是一个n*k维的矩阵,n代表图片集中示例的个数,k代表映射到二进制编码时编码的位数,编码矩阵Y的每行就是一个编码函数,各示例通过编码函数计算得到一个k维的向量,再对此向量进行二值化分割:sgn(y),就得到了图片数据集中各示例的二进制编码。

4.根据权利要求1所述的基于语义分割场景的示例搜索方法,其特征在于步骤4具体包含以下过程:如果有新的查询图片要进行近似示例的搜索,同样使用编码函数计算出查询示例的二进制编码,然后比较查询示例的编码和示例数据集中所有示例编码的汉明距离,定义汉明距离门限阈值r,如果查询示例和某示例的汉明距离小于阈值r,即认为此示例是查询示例的近似图片,遍历示例数据集,即可找到查询示例的所有近似示例,再返回示例所在的图片。

5.根据权利要求4所述的基于语义分割场景的示例搜索方法,其特征在于所述阈值r的取值可分别选取1,2,3,4。