1.一种基于目标检测和知识增强的图像描述生成方法,其特征在于,包括如下步骤:步骤1:获取已有描述标注的图像描述数据集,对数据集中标题文本中的每个词进行识别,获取固定长度的词向量并组成相对应的词汇表;通过抽取图像感兴趣区域特征向量,识别图像实体区域框及图像实体类别,来获取固定长度的类别特征词向量;对图像进行识别,获取固定长度的图像实体特征向量;检测图像,获得图像中所含的目标区域框和目标标签;
步骤2:将目标标签、目标区域框作为分类检测方法的输入,分类检测方法先根据目标标签,使用人脸识别方法及通用商品识别方法将目标标签与目标区域框进行匹配,获得区域内的目标特征标签集;分类检测方法再在匹配完成的基础上根据目标区域框,使用人脸识别方法及通用商品识别方法获得目标具体的信息,即人脸特征标签,物体特征标签;
步骤3:将目标标签、人脸特征标签、物体特征标签,通过知识图谱术语检索方法,获得图像中目标的背景信息标签集;
步骤4:将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,获取目标特征向量、背景信息特征向量;
或将目标特征标签集和背景信息标签集分别作为深度学习RNN网络的输入,得到深度学习RNN网络中产生图像特征,根据图像实体特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征,得到图像的融合特征向量;
步骤5:将目标特征向量、背景信息特征向量作为长短期记忆网络的输入量,类别特征词向量作为长短期记忆网络的输出量,实现长短期记忆网络的训练;
或将融合特征向量作为长短期记忆网络的输入量类别特征词向量作为长短期记忆网络的输出量,实现长短期记忆网络的训练;
步骤6:用训练好的长短期记忆网络生成图像描述内容。
2.如权利要求1所述的基于目标检测和知识增强的图像描述生成方法,其特征在于,所述步骤4中得到图像的融合特征向量的具体方法为,依次将目标特征向量、背景信息特征向量、深度学习RNN网络中产生图像特征进行向量拼接,得到图像的融合特征向量。
3.如权利要求1或2所述的基于目标检测和知识增强的图像描述生成方法,其特征在于,深度学习RNN网络中产生图像特征为:r=F‑RCNN(I)
其中,r是图像实体特征向量,F‑RCNN()为faster‑rcnn工具函数,I是训练集中的图像。
4.如权利要求3所述的基于目标检测和知识增强的图像描述生成方法,其特征在于,图像的融合特征向量为:V=Concatenate(i,d,r)
其中,V为图像的融合特征向量,i为图像实体特征向量,d为背景信息特征向量。
5.如权利要求4所述的基于目标检测和知识增强的图像描述生成方法,其特征在于,图像实体特征向量为:i=RNN(r0)
背景信息特征向量为:
d=RNN(e0)
其中,r0为目标特征的标签集,e0为背景信息标签集。