1.一种高质量蒙汉无监督神经机器翻译方法,其特征在于,包括如下步骤:步骤1,使用字节对编码技术对大规模蒙汉单语语料进行预切分处理,将蒙语、汉语句子全部分成单个字符;
步骤2,使用Bert对大规模蒙汉单语切分语料进行单语语言模型预训练,分别得到蒙语、汉语语言模型;
步骤3,将蒙语、汉语语言模型作为先验知识,结合融合子词‑片段的矩阵生成方法训练无监督蒙汉分词器,对待分词蒙汉句子中任意两个子词的相关性打分以完成分词;
步骤4,将经过分词的蒙汉双语嵌入到一个共享的潜在空间,使用无监督对抗自主学习方法最优对齐蒙汉双语词向量空间;
步骤5,使用基于transformer‑XL+mask框架的序列到序列预训练模型共同对最优对齐词向量空间中已切分的蒙汉单语语料训练蒙汉语言模型;
步骤6,对最优对齐的蒙汉双语词向量使用CSLS方法进行最近邻查找得到一个基于GAS框架的蒙汉双语词典;
步骤7,使用基于GAS框架的蒙汉双语词典结合带mask的蒙汉序列到序列预训练模型生成蒙汉语言模型,并基于带记忆单元的transformer‑LR框架训练初始蒙汉翻译模型;
步骤8,对已生成的蒙汉、汉蒙翻译模型使用无监督回译方法,结合对偶学习策略共同训练一个高质量蒙汉、汉蒙双向对偶无监督翻译模型;
步骤9,对高质量蒙汉无监督神经机器翻译模型进行BLUE值评测,得到最终的翻译模型,并利用该翻译模型进行蒙汉翻译。
2.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤2中,Bert对大规模蒙语单语切分语料进行单语语言模型预训练时,输入的蒙语句子序列设定15%的mask概率,即随机选中蒙语句子序列中15%的单词进行mask,其中设定80%的概率mask掉选中的蒙语单词,即使用[mask]标记替换掉原单词,10%情况下使用任意蒙语单词替换选中单词,剩余10%情况下保持原词汇不变。
3.根据权利要求1所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤3中,训练无监督蒙汉分词器并完成分词的步骤为:首先,对于经过预切分步骤的待分词蒙语句子序列x=(x1,x2,…,xt),使用基于子词级的相关矩阵生成方法测试任意两个token的相关度,使用B(x)表示序列x经过Bert编码器后的输出序列,B(x)i表示第i个token所对应的编码向量,x\{xi}表示将第i个token替换为[mask]后的序列,x\{xi,xj}表示将第i,j个token都替换为[mask]后的序列,设f(xi,xj)表示第i个token对第j个token的依赖程度,即xi,xj之间的相关度,定义为:f(xi,xj)=d(B(x\{xi})i,B(x\{xi,xj})i)其中d(·,·)为欧氏距离,即d(u,v)=‖u‑v‖2,得到一个T×T的相关矩阵用于衡量xi,xj之间的相关度;
之后,使用基于子词片段的相关矩阵生成方法测试任意两个token片段的相关度,Bert的输入仍为token,并将token分组成若干个token片段,定义句子序列D=[e1,e2,…,eN],其中 定义一个N×N的相关矩阵用于衡量token片段ei与ej,定义为:f(ei,ej)=d(B(D\{ei})i,B(D\{ei,ej})i)其中B(D\{ei})i是指Bert输出的ei对应的Mi个向量的平均;
最后,结合子词及子词片段的相关矩阵生成方法共同对经过BPE预处理的蒙语单语语料再次进行分词,分词设定一个阈值,先对token进行切分,相关度小于该阈值的两个token切开,大于等于这个阈值的两个token拼接,之后再对生成的token片段再次进行切分。
4.根据权利要求3所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤4中,将经过分词的蒙汉双语使用fastText作为编码器,使用其字符级n‑grams将切分后的蒙汉双语嵌入到一个共享的潜在空间。
5.根据权利要求3或4所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述无监督对抗自主学习方法的步骤为:
步骤4.1,利用双编码器‑解码器对抗重构框架初步对齐蒙汉双语词向量空间,其步骤为:
步骤4.1.1,设分词后的蒙语句子词向量集合为x=(x1,x2,…,xn),分词后的汉语词向量集合为y=(y1,y2,…,ym),定义两个transformer解码器Dec_mo与Dec_zh,其中Dec_mo用于重构已嵌入在共享空间的蒙语词向量,Dec_zh用于重构已嵌入在共享空间的汉语词向量,对蒙语,将共享潜在空间中的蒙语词向量xi通过解码器Dec_mo产生重置后的词嵌入Xi,将原始和重新构造的词嵌入之间的差异设定为损失函数:L(mo)=d(xi,Xi)=d(xi,Dec_mo(Enc1(xi)))对汉语,将原始和重新构造的词嵌入之间的差异设定为损失函数,其中Yi为汉语词向量,
L(zh)=d(yi,Yi)=d(yi,Dec_zh(Enc2(yi)))步骤4.1.2,对fastText编码器与设定的解码器共同进行训练以最大程度地减少损耗函数,其中d(·,·)为欧氏距离;
步骤4.1.3,通过对抗训练引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似,其步骤为:
首先,通过解码器Dec_mo重构已嵌入在共享空间的汉语词向量,对蒙语词向量使用解码器Dec_zh进行重构,即:
其次,训练基于transformer的鉴别器Dx和Dy对原始单词嵌入和重构单词嵌入进行分类:
之后,训练两个自动编码器用于混淆鉴别器:lauto(yi)=log(1‑Dx(Dec_mo(Enc2(yi))))lauto(xi)=log(1‑Dy(Dec_zh(Enc1(xi))))步骤4.1.4,通过迭代优化总目标函数中的自动编码器损耗和鉴别器损耗,引导通过fastText编码器的单词嵌入结果xi与yi尽可能相似,初步对齐蒙汉双语词向量空间:ltotal=λa(l(mo)+l(zh))+λb(lauto(xi)+lauto(yi))其中λaλb为加权超参数;
步骤4.2,从初始对齐的词向量空间逐步迭代改进蒙汉双语词空间的映射,最终实现蒙汉双语词向量空间最优对齐,其步骤为:步骤4.2.1,对初步对齐的蒙汉词向量空间xi与yi生成两个词嵌入矩阵MO与ZH,其中行代表蒙语或汉语的词向量,列代表词向量的维度,经过步骤4.1的初步对齐,MOi与ZHi之间已经有了初步的对应关系
步骤4.2.2,定义两个转换矩阵Wmo,Wzh用于引导蒙汉词向量空间进一步对齐,即引导MOWmo和ZHWzh对齐在同一个向量空间,定义一个测试词典Dmo‑zh,如果汉语中的第j个词是第i个蒙语单词的翻译,此时 计算最大化当前字典Dmo‑zh相似度的最佳正交映射以训练转换矩阵
步骤4.2.3,在映射嵌入的相似矩阵 上进行最佳词典的计算;
步骤4.2.4,对步骤4.2.2和步骤4.2.3进行迭代训练直到模型收敛,即实现蒙汉双语词向量空间最优对齐。
6.根据权利要求5所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤5中,预训练模型使用结合注意力单元的transformer‑XL作为编码器‑注意力‑解码器框架,并引入mask机制,对基于transformer‑XL的编码器和解码器共同进行训练;
其中,所述列预训练模型对不成对的大规模蒙汉单语句子,假定经Bert训练的无监督分词模型切分后的蒙语句子集合为X=(x1,x2,…,xn),给定其中的xi∈X,设 表示句子xi的相对编码序列位置a到位置b,设 表示句子xi的序列中从相对位置a到相对位置b被遮蔽,即被mask掉,其中0
7.根据权利要求6所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤6中,对蒙汉词向量MOi与ZHj,将CSLS方法定义为:ZH MO
CSLS(MOi,ZHj)=2cos(MOi,ZHj)‑r (MOi)‑r (ZHj)ZH
其中r 是汉语单词与其邻居的平均相似度,定义为:其中Nj(MOi)是蒙语词向量投影的邻居,K为总邻居数。
8.根据权利要求7所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤7中,首先将经过Bert训练的无监督蒙语分词器切分的蒙语单语语基于蒙汉双语词典进行序列到序列逐词翻译,结合基于MPM框架训练的模型生成蒙→汉伪平行语料,对分词后的汉语语料经逐词翻译后结合模型生成汉→蒙伪平行语料;之后使用蒙→汉伪平行语料基于transformer‑LR框架训练初始蒙汉翻译模型,在原有transformer架构的基础上加入一个记忆模块以最大限度地提升模型捕捉输入伪平行语料中长程语义的能力,其中每种语言的一个句子序列经过编码器计算后其隐状态会被压缩放入记忆模块中用于在解码器中重建,其损失函数为:
其中,mem表示记忆模块,cm表示压缩记忆模块,g为模型权重。
9.根据权利要求8所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述步骤8中,无监督回译方法的步骤为:首先使用初始蒙汉翻译模型从一句蒙语单语句子开始,通过蒙语翻译到汉语,产生一个可能错误的翻译,然后再用初始汉蒙翻译模型重建蒙语句子,通过重建蒙语句子与初始蒙语句子之间的差异为训练汉蒙翻译模型提供了误差信号;并使用初始汉蒙翻译模型通过汉语翻译到蒙语,再用初始蒙汉翻译模型重建汉语句子,通过重建汉语句子与初始汉语句子之间的差异为训练蒙汉翻译模型提供误差信号。
10.根据权利要求9所述高质量蒙汉无监督神经机器翻译方法,其特征在于,所述汉蒙、蒙汉翻译模型组成对偶模型不断迭代训练,使用对偶学习方法结合回译迭代训练翻译模型的损失函数为:
* *
LDL+BT=aE[‑logPMO→ZH(ZH|u(ZH))]+bE[‑logPZH→MO(MO|v(MO))]*
v(MO)=argmaxPMO→ZH(v|MO)*
u(ZH)=argmaxPZH→MO(u|ZH)*
其中,v (MO)表示来源于蒙语单语句子通过蒙汉→汉蒙翻译模型重建蒙语句子中的一*
句,u (ZH)表示来源于汉语单语句子通过汉蒙→蒙汉翻译模型重建汉语句子中的一句,上* *
述生成的(MO,v(MO))、(ZH,u (ZH))作为翻译的误差信号自动修改模型超参数a,b以实现最小化模型训练损失函数‘’
所述无监督翻译模型的总目标函数为: