1.一种基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,包括如下步骤:步骤1,通过知识图谱三元组构建蒙汉双语命名实体语义网,其中所述命名实体为未登录词一部分且被知识图谱三元组表示,结合蒙汉双语命名实体的互信息特征、音译特征和同现特征进行多特征对齐,构建命名实体词典;
其中,多特征对齐是融合命名实体互信息特征、音译特征和同现特征并对不同特征进行权重分配,得到蒙汉命名实体对齐的相似程度,融合后特征相似度Scoreall(α,β)的计算公式如下:其中,α表示汉语命名实体,β表示蒙古语命名实体,λj表示第j个特征对应的权重,Scorej(α,β)表示α与β第j个特征的相似度,包括互信息特征相似度Scorem(α,β)、音译特征相似度Scoretranslite(α,β)和共现特征相似度Scoreco‑occu(α,β);
所述互信息特征相似度Scorem(α,β)的计算公式如下:其中,I(Asou,Atar)表示Asou,Atar的互信息,Asou,Atar分别表示蒙古语和汉语片段,p(Asou,Atar)表示Asou,Atar在上下文中共现概率,p(Asou),p(Atar)分别表示Asou,Atar的独立概率;N表示平行语料中总句对数,r(Asou,Atar)表示Asou,Atar在语料库同时出现的句对数,r(Asou),r(Atar)分别表示Asou,Atar出现的句对数;
所述音译特征相似度Scoretranslite(α,β)的计算公式如下:其中,αi∈(α1,α2,...,αn),(α1,α2,...,αn)是α转换得到的字序列,βj∈(β1,β2,...,βm),(β1,β2,...,βm)是β转换得到的音节序列,i,j分别表示转换后序列中的位置序号,n,m分别表示字序列和音节序列的长度,p(αi|βj)表示在条件βj下αi的概率,p(βj|αi)表示在条件αi下βj的概率;
所述共现特征相似度Scoreco‑occu(α,β)的计算公式如下:其中,Num(α,β)表示α和β在平行语料中出现的次数,Num(α)表示α在汉语语料中出现的次数,Num(β)表示β在蒙古语语料中出现次数;
步骤2,利用现有蒙古语词干表和蒙古语词缀表,借助知识图谱三元组来表示蒙古语稀有词组成分布,即将知识图谱三元组(subject,relate,object)变成(词干,词缀,词),利用Transformer‑CRF算法进行稀有词切分,在稀有词切分与知识图谱稀有词生成过程中进行交互式增强生成对抗训练,并添加交互信息Flag指导生成对抗,最终通过生成对抗Softmax输出值0或者1配合Flag取值‑1或者1来反向指导稀有词知识图谱三元组的构建,得到全面的稀有词知识图谱三元组集;
步骤3,对经过步骤1和步骤2处理之后的蒙汉平行语料库进行知识蒸馏,在教师模型通过知识蒸馏为学生模型提取语料时,构建蒙汉平行语料库的知识图谱;
步骤4,在进行非自回归机器翻译时,利用步骤3构建的知识图谱作为投影矩阵训练集,经过双向嵌入映射共同训练得到投影矩阵 先由源语言嵌入线性映射,然后经投影矩阵到目标嵌入层,转换成解码器输入信息作为解码器润色层模块的润色来源,在润色层模块中将映射得到的信息和传递层模块输出信息融合,由迭代回泽模型进行翻译来反向指导隐藏状态的属性,进行最后的解码信息润色。
2.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1中,蒙汉双语命名实体语义网是利用知识图谱对蒙汉双语命名实体构建形成的以命名实体为中心的上下文语义网。
3.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤2中,将利用Transformer‑CRF算法进行稀有词切分看作生成器G,将稀有词知识图谱三元组的构建看作判别器D,将生成器G的输出做为判别器D的输入,并引入交互信息Flag做为指导生成对抗训练,Flag=1代表输入数据为知识图谱构建的真实数据,Flag=‑1表示输入是由生成器G生成的伪数据,根据生成对抗输出的Softmax的取值来指导知识图谱生成新的稀有词三元组集。
4.根据权利要求3所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述生成器G和判别器D的生成对抗训练过程如下:
1)、用知识图谱构建的稀有词真实数据集训练判别器D的参数θd,模型损失函数为:Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)
2)、锁定生成器G,用生成器G切分出来的数据样本继续训练判别器D的参数θd,损失函数为:
Loss=∑(seg,tri,‑1)∈sCross_Entropy(pre,ω)
3)、锁定判别器D,用知识图谱构建的稀有词数据训练生成器G,其损失函数为:Loss=∑(seg,tri,1)∈sCross_Entropy(pre,ω)+Loss(G)其中,seg表示Transformer‑CRF词切分后的数据集,tri表示三元组构建的稀有词数据集,s表示训练的样本集,pre表示输入的概率,ω表示词切分后的词干和词缀是否在三元组中存在,Loss(G)表示生成器自身的损失函数,‑1和1表示Flag的取值, 表示总时间,Softmax(t)表示第t步Softmax层的输出,word(t)表示第t步的输入单词,Cross_Entropy(pre,ω)表示交叉熵的输出结果。
5.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤4中,是在进行源语言嵌入和目标语言反向嵌入时,训练一个投影矩阵 最终通过将源语言的嵌入矩阵Esou映射到目标嵌入层,得到的目标嵌入作为解码器的输入,计算如下:
其中,Etar表示目标语言的嵌入矩阵,fM表示映射函数。
6.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述投影矩阵 的训练过程如下:
步骤1)、在嵌入映射的过程中利用训练集中的蒙汉平行句子,通过最小化嵌入平行句子双方的距离Lalign来规范投影矩阵 的学习;
步骤2)、通过训练知识蒸馏过程中构建出的蒙汉平行语料库的知识图谱,利用知识图谱三元组中的实体词对齐来规范投影矩阵 的学习。
7.根据权利要求6所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述步骤1)的具体过程如下:
Lalign(x,y)=||fE(E′(x))‑E′(y)||其中,Lalign(x,y)表示源语言和目标语言嵌入后的双方距离,fE是嵌入函数,||*||来保证取值结果为正,E′(x)和E′(y)分别表示源语言x和目标语言y的嵌入,E′(xi)表示源语言x的第i个嵌入,E′(yj)表示目标语言y的第j个嵌入, Tx表示x的长度,Ty表示y的长度,i,j分别表示位序;
所述步骤2)的具体过程如下:
a)、经过TransE进行知识图谱三元组的结构嵌入,在TransE中附加权值增加注意力的学习,通过注意力的学习可以更好的对齐知识图谱三元组中的实体,则其中的最小化目标函数fse的计算公式如下:
其中,|K|为知识蒸馏过程中构建的蒙古语和汉语知识图谱中三元组的总数,count(r)为联系属性r出现的次数,θ表示权值,kr表示K中符合属性的三元组集,k’r表示K中不符合属性的三元组集,g(*)表示组合函数,σ表示属性出现概率;
b)、利用结构嵌入使蒙汉知识图谱三元组中的实体具有相似的嵌入,然后再进行实体嵌入,则蒙汉嵌入实体相似度Submap为:
其中,Sub1,Sub2分别表示蒙古语知识图谱和汉语知识图谱三元组中的实体,G2表示汉语知识图谱。
8.根据权利要求1所述基于知识图谱的蒙汉非自回归机器翻译方法,其特征在于,所述解码器包括嵌入层模块、传递层模块、润色层模块和顶层模块,所述嵌入层模块为解码器的最下层,将目标语言词嵌入转化成词向量;传递层模块为解码器中最下面的N‑1层,将来自嵌入层模块的向量在传递层模块中利用隐藏层计算来增强信息强度,且传递层模块N‑1层中的每层主要包含自我注意、位置注意、词性注意、源侧注意、前馈层;
润色层模块在解码信息进入到顶层前对传递的信息润色修改,利用激活函数ReLu,将源语言嵌入经过投影矩阵 得来的目标嵌入信息与来自传递层模块输出的信息进行融合,融合后的输出信息经过一个迭代回泽模型进行反向翻译来作为润色的最后一步,以达到解码的目标信息的最高标准化;顶层模块使用自回归Transformer解码器一层结构进行最终的解码输出。