利索能及
我要发布
收藏
专利号: 2019111417340
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于层次结构的跨模态可变长度哈希检索方法,其特征在于,包括以下步骤:步骤1、对多模态数据集构建近邻图,其中数据集中的图像数据与文本数据一一对应,为了简化表达,下文中我们使用图文对来表示多模态数据集中的一对图文数据;分别提取图像与文本的不同特征,通过结合图像特征和文本特征来构建图文对训练集与图文对数据库之间的相似度矩阵;

步骤2、通过相似度矩阵来选取具有代表性的图文对构建自底向上的图文对层次结构,其中选取的图文对强连接于未被选取的图文对,每一层中选择出的图文对作为下一层的初始图文对,再次进行下一层图文对的选取,直到选出的代表点足够少并且能够代表整体的数据集,此时选择出的顶层图文对分别代表各个不同局部区域的相似图文对;

步骤3、构建顶层代表图文对之间的相似度矩阵,在单模态监督离散哈希检索方法的基础上,假设图像数据和文本数据存在共同的潜在抽象语义空间,在此空间内可以直接进行查询和检索;将图像数据和文本数据的哈希编码分别投影到潜在的抽象语义空间,并根据内积计算出图像和文本数据间的相似度矩阵;

步骤4、将图像数据与文本数据分别投影到各自最优长度的哈希编码空间,通过迭代优化求解出相应的投影矩阵,相似度关联矩阵,以及各模态数据最优长度的紧凑哈希编码;

步骤5、使用相似度传递矩阵自顶向下插值返回到底层完整数据,得到待查询数据的哈希编码与数据库中所有数据哈希编码的相似性排序;

步骤6、根据相似性排序来得出与待查询数据相似的所需数据返回给用户并检测其精确度;

所述步骤1中,对图像和文本成对数据建立近邻图,构建图文对训练集与图文对数据库之间的相似度矩阵,具体包括:设 为图像数据集,

为文本数据集,d1和d2分别为图像和文本数据的维度,n为图像和文本数据对的样本个数,R为全体实数集;

[0] [0] [0] [0]

对数据库中的图文对建立k近邻图G (V ,W ),其中V 表示数据库中的所有图文对, 表示每对图文之间的相似度矩阵;

所述步骤3中,首先构建顶层代表图文对数据的相似度矩阵,假设多模态数据集存在共同的潜在抽象语义空间V,在此空间中多模态数据可以直接查询和检索,则图像的哈希编码BX和文本的哈希编码BY投影到潜在抽象语义空间的形式分别为:则在V空间中数据间的相似性表示如下:

T

记W=W1W2,则W为图像与文本之间的相似性,具体的目标函数为:其中PX、PY分别表示图像数据和文本数据的投影矩阵。

2.根据权利要求1所述的一种基于层次结构的跨模态可变长度哈希检索方法,其特征在于,所述步骤2中,构建层次结构的核心是构建图文对之间的强连接图;对于图文对数据库自底向上的层次结构中的第s层,是从第s‑1层的图文对中选择出的图文对作为代表图文对,在第s‑1层中而不在第s层中,即未被选中的图文对则需强连接于第s层的代表图文对,[n]不同层次之间的图文对使用相似传递矩阵F 来相互表示,其中n表示相应的层数;每层的相似度矩阵都可通过底层的相似度矩阵传递,具体表示如下:[i] [i‑1]T [1]T [0]T [0] [0] [1] [i‑1]W =F …F F W F F …F ,i=1,2,...,s。

3.根据权利要求1所述的一种基于层次结构的跨模态可变长度哈希检索方法,其特征在于,所述步骤4中,获取各模态原始数据映射到各自哈希编码的映射函数,并通过映射函数得出到各模态数据最优长度的紧凑哈希编码,则具体的求解步骤是:(1)固定其他变量,求解PX、PY,则目标函数可以简化成如下形式:因此,PX、PY可通过回归公式分别计算出解析式:

T T ‑1 T T ‑1

PX=BXX(XX) ,PY=BYY(YY) ;

(2)固定其他变量,求解W,则目标函数可以简化成如下形式:公式为双线性回归模型,解析式如下:

(3)固定其他变量,求解BX,目标函数可简化成以下形式:对变量BX逐行求解,即求解BX的某一行向量时先固定剩余的行向量,然后依次迭代求解其他行向量,展开公式并变形为以下形式:T

其中, H=(WBYS+PXX),Tr(…)为求解矩阵的迹,求解过程如下,当求解BX第T T T Ti行向量b时,令BX′为BX删除行向量b后的矩阵,g 为G的第i行向量,G′为G删除行向量g 后的矩阵,h为H的第i行向量,H′为H删除行向量h后的矩阵,求解结果为:T

b=sgn(h‑BX′G′g)

按照以上公式可求解BX的第i行向量,然后通过类似的步骤求出剩余的其他行向量;

(4)固定其他的变量求解BY,求解过程与BX基本类似,可参考步骤(3)BX的求解方式。

4.根据权利要求1所述的一种基于层次结构的跨模态可变长度哈希检索方法,其特征在于,所述步骤5中,使用相似度传递矩阵自顶向下插值返回到底层,得到待查询数据的哈[0] [1]希编码与数据库中所有数据的相似性排序,具体步骤为:使用相似传递矩阵序列F F …F[s‑2] [s‑1]F ,自顶向下插值返回到底层,得到待查询数据的哈希编码与数据库中所有数据哈希编码的相似性排序。