1.一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,包括如下步骤:
步骤1,使用双注意力机制来进行特征提取,然后通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型;对蒙古语进行预处理后构建蒙汉神经机器翻译模型;
步骤2,将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中;
步骤3,将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练,用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪,形成一个伪平行语料库D1;
步骤4,将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D;
步骤5,用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型,得到最终的蒙汉神经机器翻译模型;
步骤6,利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。
2.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤1中构建英汉神经机器翻译模型时,对数据进行如下预处理操作:
1)用中文分词工具对中文语料进行分词操作;
2)用英文预处理工具对英文语料进行词性标注和分词操作。
3.根据权利要求1或2所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤1中构建英汉神经机器翻译模型时,对于登录词,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),根据动态规划查找最大概率路径,找出基于此的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法,将中文词汇按照BEMS四个状态来标记,B是开始位置,E是结束位置,M是中间位置,S是单独成词位置。
4.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤2中,利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重,对蒙汉神经机器翻译模型进行参数初始化,取代随机初始化,将模型参数权重迁移到蒙汉神经机器翻译模型。
5.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤3中,利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时,将蒙汉神经机器翻译模型的词典,词向量,隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。
6.根据权利要求1或5所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述加噪的方式包括:
1)同义词替换
不考虑停止词,在现有的汉语单语语料的句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换;
2)随机插入
不考虑停止词,从现有的汉语单语语料的句子中随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置,该过程重复n2次;
3)随机交换
从现有的汉语单语语料的句子中,随机选择两个词,位置交换,该过程重复n3次;
4)随机删除
在从现有的汉语单语语料的句子中的每个词,以概率p随机删除。
7.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤4中,将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D,利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。
8.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,英汉神经机器翻译模型中,用BLEU值作为评估机器翻译译文质量的工具,N‑gram表示n个单词长度的词组集合,每个N‑gram的计算公式为:其中sj是标准翻译的人工译文,j∈M,M表示共有M个参考答案,ci表示机器翻译译文,i∈F,F表示共有F个翻译,hk(ci)表示第k个词组在ci中出现的次数,hk(sj)表示第k个词组在sj中出现的次数,k∈K,K表示词组数,minj∈Mhk(sj)指第k个词组在sj中的最小次数,即寻找最相似候选句子;
BLEU的公式为:
其中BP代表译文较短惩罚因子,Pn代表n元语法准确率,wn代表加权, M是机器翻译译文和人工标准参考译文的组成词语的数量,上限取值为4,即最多只统计4‑gram的精度。