利索能及
我要发布
收藏
专利号: 2021112412835
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-05-11
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,基于多粒度联想学习的手绘图像实时检索方法提出改进的神经网络模型,改进的神经网络模型包括f1、f2和f3三个分支,f1为预训练网络,f2为注意力层,f3为降维层,改进的神经网络模型的训练集为由多张图像与其对应手绘的完整草图组成的图像集,将图像集中每一张图像的完整草图按照绘图的笔画顺序渲染为多张草图,完整草图渲染后构建该图像集的草图分支集,每次训练选取图像集中的一张图像作为目标图像;

通过训练集训练改进的神经网络模型,完成训练后,输入手绘图像实时检索图像,改进的神经网络模型的训练过程包括以下步骤:S0、根据图像集中图像对应的手绘草图,采用三重损失函数,训练神经网络模型的f1、f2、f3三个分支,训练完成后固定参数;

S1、根据绘制目标图像所需的笔画数对该目标图像的草图分支中每一张图片划分等级;

S2、通过预训练网络提取目标图像的特征向量与草图分支中每一张图片的特征向量,采用注意力层的注意力机制得到目标图像的嵌入向量和草图分支中每一张图片的嵌入向量;

S3、根据图片划分的等级将图片的嵌入向量送入该图片所属等级对应的降维层;

S4、在等级对应的降维层中降低图片的嵌入向量的维数后,将图片与其下一个等级中的图片进行联想,采用均方损失函数计算当前等级与下一等级图片的均方损失,将计算的均方损失作为损失函数更新降维层;重复该过程,直到所有等级的均方损失计算完成;

S5、采用三重态损失函数计算草图分支中每一张图片和图像集中图像的误差,将该误差与所有等级的误差相加,进行反向传播,以靠近目标图像、远离图像集中除目标图像外的图像为目标调整模型中的参数,逼近图片与目标图像间的嵌入向量,同时逼近两个相邻等级间的嵌入向量;

S6、获取下一张目标图像的草图分支,重复上述步骤S1‑S5,直至模型达到训练次数上限。

2.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,将一张图像的完整草图根据绘图的笔画顺序渲染为N张图片,N张图片组成一个草图分支,该草图分支中每一张图片包括完整草图的第一笔至第n笔且每张图片笔画不同,1≤n≤N,根据图片包含的笔画数升序排列,则一个草图分支S={s1,s2,...,sn...,sN},sn表示包含第一笔到第n笔笔画的图片。

3.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,采用注意力机制得到草图分支中每一张图片的嵌入向量,其表达式是:VH=Global_pooling(B+B.fatt(B))其中,B是经过预训练网络之后得到的特征向量,fatt()表示注意力机制,Global_pooling(*)表示对经过注意力层得到的嵌入向量做全局池化,VH表示草图分支经过全局池化后进一步得到的嵌入向量。

4.根据权利要求1或3所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,根据笔画数对草图分支中的每一张图片划分等级,每个等级设计一个单独的降维层,降维层又称线性映射层,其表达式:VL=A.VH

其中,A代表线性映射,VL表示降维后的草图分支的嵌入向量。

5.根据权利要求4所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,每一个等级都有对应的降维层,降维层将2048维的嵌入向量映射到64维上,采用多粒度联想学习方法,实现不完整手绘图像的特征向量空间向其相对完整手绘图像的特征向量空间逼近,以进一步优化不完整手绘图像的特征向量空间。

6.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,所述步骤S1包括:

若绘制一张完整草图需要笔画为N笔,完整草图渲染后的草图分支中包含N张图片;

划分等级时,将草图分支中的第1张到第m张图片划分为第一等级,即前m笔划分为第一等级,第m+1张到第2m张图片划分为第二等级,即第1笔到第2m笔划分为第二等级;此后的每一个等级都依次增加m张图片,即增加m笔笔画;

若P为整数,P=N/m,则将N张图片共划分为P个等级,若P不为整数,则将N张图片共划分为P+1个等级。

7.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,所述步骤S1包括:

若绘制一张完整草图需要笔画为N笔,完整草图渲染后的草图分支中包含N张图片,mk为第k个等级所包含的图片数,采用完整度判别器根据公式划分图片等级,每个等级中包含的图片数依次减少,第k个等级所包含的图片数表示为:

8.根据权利要求1所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,所述步骤S4包括:

将第i等级向第i+1等级逼近过程中,第i等级中图片xi按照笔画数从少到多的顺序与第i+1等级中每次随机选择的一张图片xi+1计算均方损失,将i等级中的每一张图片和下一个等级图片的均方损失依次相加,得到第i等级的均方误差,将第i等级向第i+1等级逼近,第i等级中图片xi与下一个等级的图片xi+1的均方损失表示为:2

MSE Loss=ω(xi+1‑xi)其中,ω>0。

9.根据权利要求1或2所述的一种基于多粒度联想学习的手绘图像实时检索方法,其特征在于,三重态损失函数的表达式为:其中,m代表一张完整草图共渲染出的图片数量;v[i,j]表示草图分支中第i张图片的嵌入向量,通过降维层之后获得;v[i+1,rnd]表示草图分支中第i+1张图片;vp表示经过预训练网络和注意力层后获得的正样本,即目标图像的嵌入向量,vn表示经过预训练网络和注意力层后获得的负样本,即图像集中除目标图像外的图像的嵌入向量,α是一个常数,d是欧式距离。