1.一种基于二级门控编码的图文多模态摘要方法,其特征在于,包括以下步骤:
S10,获取数据集,确保每一条数据包括一篇文本与若干张图片;
S20,采用卷积神经网络分别提取所有j张图片的图像特征向量v1到vj,采用长短期记忆循环神经网络编码器对文本进行处理得到文本一级编码的隐藏层hi;同时将网格级划分后的图片,逐层通过隐藏层向量hi,与每个图像网格级特征v1到vj相结合,取最大的图像网格;
S30,采用用门控循环神经网络,将源文本每个单词与整个摘要文本和图片特征向量进行建模,得到二级门控隐藏层向量S40,采用门控循环神经网络对文本进行解码,使用正注意力机制得到文本正注意力向量和图片正注意力向量,使用反注意力机制得到文本反注意力向量和图片反注意力向量;
S50,通过正相关滤波器处理正向权重以丢弃不相关信息、增强相关信息,通过不相关滤波器处理不相关权重以增强不相关信息、丢弃相关信息;
S60,将正向文本上下文降噪向量与正向图片上下文降噪向量相加,得到多模态上下文正向融合向量 将反向文本上下文向量与反向图片上下文向量相加,得到多模态上下文反向融合向量S70,将多模态上下文正向融合向量 多模态上下文反向融合向量 分别与图片视觉特征相结合,通过正向注意力机制获得正相关的指针Pgen,通过反向注意力机制得到不相关指针Pregen来辅助生成关键词汇。
2.根据权利要求1所述的基于二级门控编码的图文多模态摘要方法,其特征在于,所述步骤S20中,网格级划分后的图片逐层通过隐藏层向量hi,与每个图像网格级特征v1到vj相相结合,取最大的图像网格,其表达式为:其中, 为门控特征,σ为sigmoid激活函数;vi表示所有j张图片中,第i张图片的特征向量且此图片的特征向量满足所有图片中使 最大;Wr与Ur均为权重矩阵,具体的值由神经网络训练得到。
3.根据权利要求1所述的基于二级门控编码的图文多模态摘要方法,其特征在于,所述步骤S30中,得到二级门控生成的隐藏向量 的表达式如下:s
其中, 作为门控循环神经网络上一步的隐藏层;GRU代表门控循环神经网络内核;
“⊙”表示Hadamard乘积;zt作为门控神经网络的记忆门,表达式如下:
W1与W2为权重矩阵,由神经网络训练得到;σ表示sigmoid激活函数,tanh表示另一激活函数。
4.根据权利要求1所述的基于二级门控编码的图文多模态摘要方法,其特征在于,所述步骤S40中,对文本进行解码时,采用正反自注意力机制,通过二级门控隐藏层向量 与上一步解码器隐藏层向量st‑1相加得到当前步的隐藏层向量st,进而得到:文本正向上下文向量 文本反向上下文向量 与图片正向上下文向量 图片反向上下文向量
5.根据权利要求1所述的基于二级门控编码的图文多模态摘要方法,其特征在于,所述步骤S50中,文本正向上下文向量 通过处理后乘上文本滤波器 n表示为text,得到正向文本上下文降噪向量 为;图片正向上下文向量 通过处理后乘上图片滤波器m表示为img;通过不相关滤波器处理反向权重步骤与正向保持一致,得到正向图片上下文降噪向量