利索能及
我要发布
收藏
专利号: 2020104473847
申请人: 青岛联合创智科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于物品查找的图像生成文本方法,其特征在于:工艺步骤如下:

步骤一:目标检测模型Mo对图像编码

对训练集样本图像中的物品使用标注工具进行数据标注,得到标注后的训练集图像,将标注后的训练集图像输入目标检测模型Mo,得到保存有特征向量的训练集图像;

步骤二:图像文本语言模型Mc进行文本语言的描述

对保存有特征向量的训练集图像通过图像文本语言模型Mc进行文本语言描述,每张图像对应5个不同的文本描述,描述内容为将图像的图像场景中目标及目标之间的联系表示成可读的文本描述。

2.根据权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤一:目标检测模型Mo对图像编码的具体过程如下:(1)训练集样本中图像表示为I=(w,h,c),其中w为图像I的宽度、h为图像I的高度和c为图像I的通道;物品的类别为C=(c1,c2,...,ci),物品的类别根据实际情况需要自动添加;对样本图像中含有类别C中的物品使用labelImg标注工具进行数据标注,标注数据包含图像I中的目标框位置坐标信息(xmin,ymin,xmax,ymax)和该目标框指定的类别信息ci,得到标注后的训练集图像,其中图像I中的目标框视为已经标注的目标框;

(2)将标注后的训练集图像输入faster RCNN目标检测模型Mo,训练目标检测模型Mo的网络参数θ,使得训练的训练集图像中样本数据不断拟合目标检测模型Mo,目标检测模型Mo输出图像的目标检测结果,得到保存有特征向量的训练集图像。

3.根据权利要求2所述的用于物品查找的图像生成文本方法,其特征在于:所述目标检测模型Mo输出目标检测结果的工艺流程如下:(a1)将标注后的训练集图像输入卷积神经CNN网络,卷积神经CNN网络提取图像的特征得到图像特征图feature_map,(a2)将图像特征图feature_map输入RPN网络,RPN网络处理特征图feature_map得到训练集图像中目标的候选区域框,(a3)将得到的候选区域框与训练集图像中已经标注的目标框计算二者的重叠度得分score,设定重叠度的阈值为th=0.6,保留score>0.6的候选区域框;

(a4)使保留的候选区域框中包含目标物体,并标记为1;舍弃的候选区域框不包含目标物体,标记为0,舍弃的候选区域框区域划归为图像背景;

(a5)将保留的候选区域框经ROI pooling层将候选区域框提取出来映射到特征图对应的位置;

(a6)将映射后的候选区域处理为维度为2048的特征向量,同时得到候选区域的检测目标数量N,检测目标数量N的取值范围是N∈(10,100),最终保存图像的N*2048维的特征向量V,得到保存有特征向量的训练集图像。

4.根据权利要求3或权利要求1所述的用于物品查找的图像生成文本方法,其特征在于:所述步骤二中通过图像文本语言模型Mc进行文本语言描述的具体过程为:(1)首先,由于每个图像都有自身的文本描述内容,为方便快速查找,对训练集图像的所有文本描述建立词汇表,根据词汇表将每个词进行数字编码以方便数据处理,例如将this cup is on the desk,编码为[15,58,100,6,500,62];对词汇表中词出现的次数c≤6的词过滤掉,保留出现频率大的词汇,对过滤掉的低频率词汇用UNK代替,最终得到词汇编码表Vcab;

(2)通过Vcab对所有的文本描述编码为句子向量S=(w0,w1,...,wL-1),wi为第i个单词编码特征,将每个单词表示为一个一维词向量wi,wi的维数等于词汇表Vcab的大小,L为词的数量;

(3)采用自注意力机制编码解码网络实现文本内容的生成。

5.根据权利要求4所述的用于物品查找的图像生成文本方法,其特征在于:本发明所述采用自注意力机制编码解码网络的具体过程为:(3-1)自注意力模块编码:

将保存有特征向量的训练集图像中的图像特征输入自注意力机制,设定自注意力机制的输入为查询向量、键向量和值向量,采用3级自注意力机制模块串联的方式实现图像的高阶特征编码过程,实现图像的高阶特征编码过程的具体流程如下:(b1)采用均值化区域特征 作为初始的输入查询向量Q(0),其中均值化区域特征的公式为:其中Vi为某一个候选区域框中的特征向量;

(b2)设定第一个注意力机制的输入为K(0)=V(0)=V, 经自注意力机制处理输出注意力图像级特征 作为第二个注意力机制的输入查询向量Q(1),同时在 的基础上输入嵌入层经归一化处理更新键向量K(1)和值向量V(1),更新的键向量和值向量作为下一个注意力机制的输入,键向量和值向量的具体实现公式如下;

其中 m=0,1,2,σ为sigmoid激活函数, 和 为嵌入层矩

阵;

(b3)经过3级自注意力机制模块串联处理后,获得的注意力图像级特征

将第三个自注意力机制模块更新后的值V(3)作为增强后的图像区域级特

征,得到的图像区域级特征属于高阶的、精细度特征;

(3-2)自注意力机制模块解码过程:

解码过程就是预测生成的词的过程,在解码阶段,将均值化区域特征 与编码阶段得到的图像级特征 串联,经嵌入层进一步转化为全局的图像级特征,全局的图像级特征的转化公式为:其中WG为嵌入矩阵;

将全局的图像级特征 和词嵌入向量xi输入LSTM网络,经LSTM网络处理后输出ht,其中通过词嵌入矩阵得到对应的词嵌入向量xi,通过引入词嵌入向量xi方便数据处理,词嵌入向量xi的计算公式为:xi=Wewi,

其中i∈{0,1,...,L-1},We表示词嵌入矩阵;

将LSTM网络的输出ht作为自注意力机制模块的查询向量ht=q,其中键向量和值向量均为V(3),输出的注意力特征 与ht相连,经嵌入层(Embed)和门线性单元(GLU)处理得到上下文向量ct,ct经过线性化处理后,在softmax层预测下一个词yi;直到生成的词序列长度达到设定的值或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。

6.根据权利要求5所述的用于物品查找的图像生成文本方法,其特征在于:所述softmax层预测下一个词yi具体实现流程如下:(c1)预测下一个单词yi生成采用的方法为beam search搜寻方法,其中参数设置为beam_size=3,beam_size表示预测生成下一个单词的可能性,词汇中的每个词概率属于0-

1之间的值;softmax层的softmax函数将经过线性化处理后ct的输入数据转化为0-1之间的概率值,概率值经sort()函数进行排序得到概率排序后的词汇表Vcab;

(c2)在预测得到的第一个单词y1时,选择词汇表Vcab中概率最大的前3个词{Vw1,Vw2,Vw3},当预测生成下一个单词时,将当前序列的三个词{Vw1,Vw2,Vw3}同Vcab中所有词进行组合,得到新的词组序列,预测下一个单词y2,此时LSTM的输入为前一个词得到的上下文向量ct同 之和,即 另一个输入为当前词的嵌入矩阵x2=Wew2,重复以上自注意力解码操作流程,预测下一个词,直到生成的词序列长度达到设定的值length=17或者遇到结束符,结束生成的句子,最后得到图像中关于检测目标的最终文本描述。