1.一种基于多交互信息融合的图像描述方法,其特征在于,包括如下步骤:步骤1:对数据集与图像真实文本描述进行预处理;
步骤2:提取数据集中图像的全局图像融合特征;
步骤3:利用多模态交互信息网络挖掘全局图像融合特征与文本语义信息间的关系,得到该时间步的上下文信息;
步骤4:采用语义解码的线性单元解码上下文信息生成输出单词序列的概率分布。
2.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤1预处理具体包括如下步骤:步骤1.1:将数据集依次进行划分,其中92%划分为训练集,4%划分为验证集,剩余4%划分为测试集;
步骤1.2:将数据集每张图片对应的5句真实描述的文本转换为小写;
步骤1.3:对转换为小写的真实描述逐单词进行统计得到语料库,所述语料库以<UNK>为结束标志,并去除语料库中单词出现次数小于5的单词;
步骤1.4:统计每张图像的真实文本描述长度L={L1,L2,...,Li},并将每张图像的真实文本描述长度设定为argmax(L)+2,对于真实文本描述长度小于argmax(L)+2的以令牌进行填充。
3.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤2提取数据集中图像的全局图像融合特征,具体步骤如下:步骤2.1:采用目标检测模型提取训练集图像的所有显著区域特征,记为v={ν1,v2,...,va},其中,va表示第a个显著区域特征;
步骤2.2:对图像的显著区域特征v分别进行三次线性映射,将得到的线性表示分别记为Q、K、V,具体公式如下:Q=vWQ+bQ
K=vWK+bK
V=vWV+bV
其中,WQ、WK、WV表示线性变换矩阵;bQ、bK、bV表示偏置。
步骤2.3:使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征。
4.根据权利要求3所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤
2.3使用多视觉语义信息交互模块建模图像显著区域特征间的关系,进而得到全局图像融合特征,具体步骤如下:所述多视觉语义信息交互模块由3xNxR个线性层、NxR个Layer Norm层、NxR个多头注意力机制与NxR个AoA层而组成;
步骤2.3.1:采用多头注意力机制,使图像显著区域特征间相互选择性关注其他相关区域特征,从而获得局部特征关系,具体公式如下:fmulti_head_att(Q,K,V)=Concat(head1,head2,...,headH)其中,fmulti_head_att表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量; 表示缩放因子;Qj、Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数;
步骤2.3.2:利用AoA机制确定局部特征关系与图像显著区域特征的相关性,使各个图像的显著特征能够选择性关注到与之真正相关其他区域特征,具体公式如下:其中,σ为sigmoid激活函数; 表示逐元素相乘, 表示线性变换矩e j
阵;b、b表示偏置;
步骤2.3.3:重复步骤2.3.1与步骤2.3.2N次,以此得到高级局部特征关系fAoAS;
步骤2.3.4:将图像显著区域特征与高级局部特征关系进行残差连接并归一化,得到增强图像特征,具体公式如下:v′=LayerNorm(v+fAoAS(fmulti_head_att,Q,K,V))其中,LayerNorm为层归一化函数;
步骤2.3.5:重复步骤2.3.1至步骤2.3.4R次,产生多层增强图像特征;
步骤2.3.6:采用向量拼接操作对多层增强图像特征进行融合,得到多层增强图像融合特征,具体公式如下:其中,[.,.]表示向量拼接操作,v′R表示第R层增强图像特征;表示多层增强图像融合特征;
步骤2.3.7:通过对多层增强图像融合特征进行平均池化生成全局图像融合特征,具体公式如下:其中,表示全局图像融合特征;a表示多层增强图像融合特征的通道数。
5.根据权利要求1所述基于多交互信息融合的图像描述方法,其特征在于,所述步骤3中多模态交互信息网络由单个多头注意力层、AoA层、嵌入层以及U个长短期记忆网络而组成,具体包括如下步骤:步骤3.1:将语料库中所有单词所对应的词向量Π输入词嵌入层,得到以one‑hot编码来表示词嵌入向量WΠΠ;
步骤3.2:将当前时间步的词嵌入向量、全局图像融合特征与前一个时间步的上下文信息作为U个长短期记忆网络的输入,进而得到全局图像融合特征与词嵌入向量间交互信息的多个互补信息,具体公式如下:其中, 表示当前时间步的第U组互补信息; 表示当前时间步的第U组细胞状态;WΠ表示词嵌入矩阵;Πt表示当前时间步的输入词; 表示前一时间步的第U组上下文信息;
表示前一时间步的第U组互补信息; 表示前一时间步的第U组细胞状态;
步骤3.3:对多个多模态交互信息进行向量拼接操作进行融合,并将其通过嵌入层映射到同一向量空间,生成多模态交互信息融合特征,具体公式如下:其中,pt表示当前时间步的多模态交互信息融合特征;[.,.]表示向量拼接操作,Wh表示h映射矩阵;b表示偏置;
步骤3.4:采用多头注意力机制与AoA机制,确定多模态交互信息融合特征与图像显著区域特征的相关性,从而获得用于生成单词序列的上下文向量,具体公式如下:其中,Ct表示当前时间步的上下文信息;Wp表示线性变换矩阵; 表示多头注意力函数;Concat表示向量拼接操作;headj表示第j个头注意力函数,采用缩放的点积注意力函数来实现;H表示头的数量; 表示缩放因子;Kj、Vj表示第j个头的线性表示;softmax表示归一化指数函数。