1.一种视觉特征和语义表征联合嵌入的图像特征构建方法,其特征在于,包括以下步骤:(1)、提取图像视觉特征
(1.1)、利用分类任务上的大规模图像数据集训练卷积神经网络,保留训练好的卷积神经网络的前k层,其余层删除,得到用来提取图像视觉特征的卷积神经网络;
(1.2)、将待提取图像输入至用来提取图像视觉特征的卷积神经网络,卷积神经网络的输出即为待提取图像的视觉特征,记为Feature;
(2)、对待提取图像进行预处理
(2.1)、利用目标检测模型对待提取图像进行分割处理,等分成s×s个格子;
(2.2)、预测每一个格子是否存在目标个体、目标个体的边界框以及目标个体的类别;
(2.3)、对存在目标个体的边框的格子采用非最大抑制算法将同一目标个体的不同子边框合并为一个刚好完整包含目标个体的最优边界框,从而得到不同个体类别的个体图像;
(3)、目标个体检测
先根据边界框裁剪出其内的目标个体个体,再将裁剪出的所有目标个体组合成集合I,I=I1,I2,…,In,In表示第n个目标个体;
(4)、提取目标个体的属性进行语义表征
(4.1)、根据当前任务搭建属性提取模块M,M={m1,m2,…,mk},mk表示目标个体的第k种属性;
(4.2)、将集合I输入至建属性提取模块M,提取目标个体的属性进行语义表征,其中,第i个目标个体的属性进行语义表征为Si={m1(Ii),m2(Ii),…,mk(Ii)},i=1,2,…,n;
(4.3)、将所有目标个体的属性进行语义表征为S={S1,S2,…,Sn};
(5)、利用语义表征S构建关系矩阵R
其中,R(i,j)表示第i个目标个体与第j个目标个体的语义表征Si、Sj的联合嵌入;
(6)、构建联合嵌入图像特征
(6.1)、构建用来对关系矩阵R编码,以及将关系矩阵R映射到与视觉特征Feature相同空间的多层全连接神经网络f;构建用于图像特征提取的多层全连接神经网络g;
R
(6.2)、将关系矩阵R输入至多层全连接神经网络f中,输出编码后的语义表征Feature;
(6.3)、将编码后的语义表征FeatureR拼接在视觉特征Feature的尾端,得到未融合的联合嵌入图像特征;
(6.3)、将未融合的联合嵌入图像特征输入至多层全连接神经网络g中,输出得到待提取图像的联合嵌入图像特征FeatureX。
2.根据权利要求1所述的一种视觉特征和语义表征联合嵌入的图像特征构建方法,其特征在于,所述的R(i,j)满足: 其中, 表示语义表征Sj拼接在语义表征Si的尾端。