1.一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于包括以下步骤:步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码;
步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚类为一类,称之为抽象关系Rabs;
步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询目标obj与目标类别相似的三元组,称之为相似关系Rsim;
步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;并利用多模态图卷积神经网络MGCN融合目标视觉特征与目标类别W的词向量,对目标obj、属性attr、关系rel进行特征编码;
步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;
所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。
2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(1)所述,具体实现过程如下:
1‑1使用MSCOCO与Visual Genome数据集中的图像文本描述,利用开放域知识抽取工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;
1‑2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e0,e1,e2,…,ek,…,eK},其中ek表示第k个单词的特征编码,为768维特征向量;
1‑3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均值,如公式(1)所示;
3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(2)所述,具体实现过程如下:
2‑1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di′,dj′,则两个三元组的相似度如公式(2)所示;
其中,i′、j′表示第i′、j′个三元组,取值范围为1到Nt,Nt表示三元组的个数;
2‑2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs;
2‑3对抽象关系Rabs进行特征表示,假设抽象关系Rabs存在K1个三元组,则抽象关系即三元组集合 则该类抽象关系Rabs的特征编码如公式(3)所示;
其中,d′k′表示三元组r′k′对应的编码特征。
4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(3)所述,具体实现过程如下:
3‑1使用在Visual Genome数据集上预先训练的Faster RCNN对图像进行目标检测,Faster RCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取d
Faster RCNN最终输出并得到的目标类别集合W={w1,w2,…,ws},ws∈R以及目标视觉特征d
集合V={v1,v2,…,vs},vs∈R,如公式(4)所示;
W,V=Faster RCNN(I)#(4)
3‑2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rsim;
3‑3与抽象关系类似,对相似关系Rsim进行特征表示,假设相似关系存在K2个三元组,则相似关系即三元组集合 则该类相似关系Rsim的特征编码如公式(5)所示;
其中,d″k″表示三元组d″k″对应的编码特征。
5.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(4)所述,具体实现过程如下:
4‑1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生成场景图;对于目标,利用FasterRCNN进行目标检测;对于属性,利用预先训练的属性分类器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标obj、属性attr、关系rel的类别词向量eo,ea,er以及它们对应的视觉特征vo,va,vr;
4‑2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得到新的融合节点特征uo,ua,ur,其中W1,W2是融合参数;
2
u=ReLU(W1e+W2v)‑(W1e‑W2v) #(6)
4‑3将融合后的融合节点特征uo,ua,ur输入到多模态图卷积神经网络MGCN中进行编码,得到场景图编码特征 如公式(7)至公式(9)所示;
其中,fr,fa,fo为参数相互独立的网络,该网络由全连接层与一层ReLU层构成;ox为第x个目标节点,rx,y为第x个目标与第y个目标的关系节点,oy为第y个目标的目标节点;ax,l为第x个目标节点的第l个属性节点;sbj(ox)为与第x个目标节点相连的主语节点集合,op为其中的主语目标;obj(ox)为第x个目标节点的宾语节点集合,oq为其中的宾语目标;Nax,Nrx分别为第x个目标的属性节点数量与关系节点数量;u是融合节点特征。
6.根据权利要求5所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(5)所述,具体实现过程如下:
5‑1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;
T
V^=Dα=D·softmax(DV`)#(10)其中,D是相似关系编码特征Dsim与抽象关系编码特征Dabs的拼接,V`是场景图编码特征的拼接;
5‑2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batch size为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为
5;利用标准的交叉熵损失来训练模型,公式(11)所示;
其中,T为输入序列的长度,yt的为输入第t个特征后生成的单词,y1:t为真实描述的第1至t个单词,θ为模型参数;
5‑3将测试图像输入到模型中,获得图像描述。