1.一种基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,包括:
步骤1,目标检测
利用YOLO‑V4对输入图像进行目标检测,输入图像是蒙古文本的图像描述,通过相关性检测对比蒙古文本与目标标签,剔除与蒙古文本不相关的目标图像,保留与蒙古文本相关的目标图像,并利用编码层将蒙古文本编码为张量;
步骤2,特征提取
利用重参数化VGG网络和三重注意力机制提取并关注目标图像特征,采用形变双向长短期记忆网络对目标图像特征与编码后的蒙古文本特征即张量分别进行数次交互,之后送入到循环共同注意力Transformer网络中;
步骤3,多模态翻译
以经过数次交互之后得到的目标图像特征与编码后的蒙古文本特征为输入,利用循环共同注意力Transformer网络进行蒙汉翻译,通过数次循环交互,将蒙古语言特征与视觉特征充分融合,输出目标语言;
其中:
所述循环共同注意力Transformer网络由循环共同注意力Transformer层、
Transformer模块、融合层、Transformer解码器组成,循环共同注意力Transformer层采用多头注意力机制将步骤2得到的目标图像特征与编码后的蒙古文本特征进行循环交互送入Transformer模块,之后利用融合层将信息融合,并使用Transformer解码器对融合后的信息进行解码,输出目标语言;
所述循环共同注意力Transformer层由视觉模块与语言模块组成,视觉模块接收提取到的目标图像特征,语言模块接收编码后的蒙古文本特征,将图像中各区域的信息作为上下文为蒙古文本加权,或者根据蒙古文本上下文为图像区域加权,使得网络可以同时捕捉视觉信息与蒙古文本信息;在循环共同注意力Transformer层中视觉信息与蒙古文本信息经过数次交互,所述Transformer模块使用Transformer编码器对循环共同注意力Transformer层的输出进行编码。
2.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述YOLO‑V4网络由CSPDenseNet、路径聚合网络、回归预测网络组成,其中CSPDenseNet作为主干网络提取图像特征,路径聚合网络作为颈部网络,并将空间金字塔池化加入CSPDenseNet,产生固定大小的输出。
3.根据权利要求2所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述CSPDenseNet由CBM模块和跨阶段局部模块构成,CBM模块由卷积层、批归一化层、Mish激活函数组成,跨阶段局部模块将输入的视觉信息划分为两部分,一部分与原始网络计算相同,另一部分不参与计算,直接与第一部分计算的结果进行拼接,其由两条支路构成,一条对主干部分进行卷积,另一条用来产生一个残差边,通过对两条支路的跨级拼接与通道整合以增强卷积神经网络的学习能力;
所述路径聚合网络采用自下而上的方式,创建一条从底层特征到顶层特征的路径,从而缩短底层特征信息到顶层特征信息的传播路径,准确地保存空间信息,正确定位像素点;
所述空间金字塔池化通过使用三个不同尺寸的最大池化层对全连接层前的卷积层进行池化操作并进行拼接,输出一个一维的向量,以此使得输入图像尺寸不受约束。
4.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述重参数化VGG将VGG网络分为训练阶段与推理阶段,在训练阶段采用多分支网络结构提升模型精度,在推理阶段采用单分支网络结构,使用重参数化将多分支网络的权值转换到单分支网络中;
所述三重注意力机制通过使用三分支结构捕获跨维度交互来计算注意力权重,通过旋转操作与残差变换建立维度间的依存关系;
所述形变双向长短期记忆网络通过将当前时间的输入xt和上一个时间的隐藏状态ht‑1在输入长短期记忆网络之前进行多次交互,然后将所得向量作为长短期记忆网络的输入,获得上下文的相关表达。
5.根据权利要求4所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述多分支网络由大量小网络组成,所述重参数化VGG在VGG网络的基础上应用重参数化技术,在网络中使用3×3卷积层、批归一化层、Relu激活函数,并引入残差分支和1×
1卷积分支,取消残差网络的跨层连接,改为直接连接,通过融合分支,将推理网络变为单路结构;
C×H×W
所述三重注意力机制中,给定一个输入张量x∈R ,表示经过卷积神经网络提取的目标图像特征,C、H、W分别表示输入特征集合R的通道数、高度、宽度,在第一个分支中,C与H进行交互,输入x首先沿高度方向逆时针旋转90°得到 形状为W×H×C,之后 经过Z‑池化形状变为2×H×C,记为 通过k×k的卷积层与批归一化层,得到形状为1×H×C的输出并经过sigmoid激活函数生成注意力权值,最后注意力权值应用于 并沿着高度方向顺时针旋转90°以保持和输入x的形状一致;在第二个分支中,通道C与W进行交互,输入x首先沿宽度方向逆时针旋转90°得到 之后 经过Z‑池化形状变为2×W×C,记为 通过k×k的卷积层与批归一化层,得到形状为1×W×C的输出并经过sigmoid激活函数生成注意力权值,最后注意力权值应用于 并沿着宽度方向顺时针旋转90°以保持和输入x的形状一致;在第三个分支中,输入x通过Z‑池化得到 形状为2×H×W,之后通过k×k的卷积层与批归一化层,输出结果通过sigmoid激活函数生成形状为1×H×W的注意力权值,并将其应用于输入x,得到结果;最后通过平均将三个分支产生的张量聚合在一起,其中Z‑池化是通过连接平均池化和最大池化将0维度的张量缩减到2维。
6.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述视觉模块和语言模块均由多头注意力机制、批归一化层、加法层、前馈层组成,所述Transformer模块与标准Transformer编码器相同。
7.根据权利要求6所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,在循环共同注意力Transformer层,定义中间视觉和中间语言为 和 通过标准Transformer计算规则得到查询,键和值矩阵,视觉模块和语言模块中,每个模块的键和值将作为另一个模块的多头注意力的输入,注意力模块在视觉流中采用图像条件的语言注意力机制,而在语言流中采用语言条件的图像注意力机制;所述前馈层由两层线性层、Relu激活函数构成,主要作用为对句子中单词的词向量信息进行融合,前馈层并不处理时序信息,只负责对各个位置的信息进行变换,所述融合层将循环共同注意力Transformer网络的两个输出拼接到一起。
8.根据权利要求7所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述Transformer解码器在编码器的基础上,采用掩膜多头注意力模块处理来自前一个输出词汇的自注意力,解码过程如下:对当前第i个输入向量进行解码时,获取第i‑1个以及之前的解码结果,解码器每一步只解码一个词,输出单词后作为解码器的输入,重复上述操作直到解码到