1.一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,包括:向完成训练的改进神经网络模型输入目标图像的手绘草图和标签信息,实时检索并获得检索结果;所述改进神经网络模型包括f1、f2、f3e和f3c;f1为经过预训练的特征提取层,f2为注意力层,f3e为图像降维层,f3c为标签降维层;
改进神经网络模型的训练过程包括:
S1:构建训练集,包括图像集和标签集,图像集为多张实物图像、实物图像对应的完整草图和根据完整草图获取的草图分支集组成,标签集为实物图像对应的所有标签信息组成;
S2:根据训练集构建训练对,每个训练对包括一张草图分支集中随机抽取的草图、一张图像集中与草图对应的实物图像即正样本,一张图像集中随机抽取的不与草图对应的实物图像即负样本和一个标签集中与正样本对应的标签;
S3:将训练对输入到改进神经网络模型中进行处理,得到草图、正样本和负样本的图像特征向量以及正、负样本的标签特征向量;
S4:拼接正、负样本的图像特征向量和标签特征向量,得到正样本联合嵌入向量和负样本联合嵌入向量;拼接草图的图像特征向量和标签特征向量,得到草图联合嵌入向量;
S5:根据正样本联合嵌入向量、负样本联合嵌入向量和草图联合嵌入向量计算三重损失函数,将三重损失函数进行反向传播,调整改进神经网络模型的参数,得到训练好的改进神经网络模型。
2.根据要求1所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,所述草图分支集为将每一张草图按照绘制的笔画顺序渲染为多张草图,以此模拟草图的绘制过程,以每张草图的所有绘制过程的渲染图组成。
3.根据要求1所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,所述标签信息为根据实际应用场景对实物图像进行的特征编码表示,采用数字1表示对应特征存在,0表示对应特征不存在。
4.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,改进神经网络模型对训练对的处理过程包括:采用改进神经网络模型中的f1、f2提取草图、正样本和负样本的高维特征;将草图、正样本、负样本的高维特征都输入f3e中进行处理,得到草图、正样本、负样本的图像特征向量;将正样本、负样本的高维特征输入f3c中进行处理,得到正、负样本的标签特征向量。
5.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,所述三重损失函数的表达式为:Loss=max(d(Vs,Vp)‑d(Vs,Vn)+α,0)
其中,Loss表示三重损失,Vs表示草图联合嵌入向量,Vp表示正样本联合嵌入向量,Vn表示负样本联合嵌入向量,α表示常数,d表示欧式距离计算。
6.根据权利要求1所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,输入目标图像的手绘草图和标签信息,实时检索并获得检索结果的步骤包括:步骤1:用户输入的目标图像的手绘草图和标签信息经过f1、f2、f3e、f3c的处理,得到草图的图像特征向量和标签特征向量;
步骤2:拼接草图的图像特征向量和标签特征向量,得到草图联合嵌入向量;
步骤3:计算草图联合嵌入向量和数据库中每个样本的联合嵌入向量的相似度,得到相似度集合;
步骤4:将相似度集合中的元素按照从大到小的顺序进行排序,取相似度最高的前K张样本图像作为最终的检索结果。
7.根据权利要求6所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,所述数据库为由实物图像的图像特征向量和标签特征向量拼接而成的联合嵌入向量构成。
8.根据权利要求6所述的一种基于多模态数据融合的手绘图像实时检索方法,其特征在于,计算相似度采用欧式距离公式计算。