利索能及
我要发布
收藏
专利号: 2018110852171
申请人: 湖北文理学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于神经机器翻译的古汉语翻译方法,其特征在于,包括以下步骤:步骤1:将经过标准化处理的古汉语语料进行语料标注;

步骤2:将标注后的结果进行处理,以形成古汉语语料库作为神经机器翻译的翻译源;

步骤3:对古汉语进行神经机器翻译。

2.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤1中所述标准化处理,包括去噪、文本标准化、词频统计、语义分析和语法分析。

3.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤2中所述将标注后的结果进行处理,包括分词和词频统计。

4.根据权利要求1所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3的具体实现包括以下子步骤:步骤3.1:判断语料是否为低资源语料;判断语料是否为低资源语料的标准有如下两个:(1)语料是否为封闭的有限语料,若是,则为低资源语料;(2)语料作为源翻译语料时,源翻译语料的所有词汇是否能在目标语料中找到恰当的词与之对应,若不能,则为低资源语料;

若是,则执行下述步骤3.2;

若否,则执行下述步骤3.3;

步骤3.2:采用迁移学习对语料进行缓解;

首先,对已知的古汉语语料利用神经机器模型进行翻译训练,训练得出的模型为高资源语料模型,称为父模型;

然后,初始化已完成训练的神经机器翻译模型,并利用该模型在小样本的语料库上进行尝试性的翻译训练,训练模型为低资源语料模型,称之为子模型;其中语料库的样本数目低于阈值时的语料库为小样本的语料库,也称为低资源语料库;

步骤3.3:对待翻译内容进行中文分词,判断翻译内容是否存在集外词的情况;

若是,则执行下述步骤3.4;

若否,则执行下述步骤3.5;

步骤3.4:采用“基于Top-N词频的源翻译表”进行处理;

由于语法结构的差异性导致翻译结果在翻译表中概率低于阈值者,将被记为集外词,暂时保存在翻译表之外,使翻译表内部的候选词成为符合该种语法结构所翻译结果的相对固定模式,并同时引入奖惩机制进行强化学习训练,起到对翻译结果反馈监督和保证翻译结果高准确率的目的;

步骤3.5:对古汉语进行基于注意力机制的神经机器翻译。

5.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.2中,将迁移学习与强化学习相结合解决低资源语言翻译的词汇翻译模式问题;当某古汉语源词在大多数情况下多次被翻译为某固定现代汉语词汇时,每一次迭代训练的翻译结果都会对这类固定翻译模式增加其翻译的奖励性得分,否则降低奖励性得分;同时对奖励性得分设定阈值,当翻译模式的奖励性得分低于阈值时,可达到确定对翻译规则进行重构的目的。

6.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,采用输出概率梯度模型缓解集外受限词汇量增加导致翻译复杂度增加的问题,该模型由正负两部分组成,如公式1;

其中,t表示编码步骤,y<t=y1,y2,...,yt-1表示输出的目标序列;yt是yt-1的下一个输出的目标词汇,V是所有目标词汇的集合,k=1,2,...,t-1,t;p(yt|y<t)表示由前置词集合推断下一个目标词为某个对应翻译结果的概率, 表示步骤t时对应目标词的能量函数的梯度,p(yk|y<t,x)表示由源词和前置词集合推断下一个目标词的概率;前置词指的是拟推断词汇之前的一系列词汇所构成的集合;

定义能量函数ε用公式2进行计算;

表示第j个词汇的翻译权重, 表示特征函数,yj、yj-1分别是第j和第j-1个目标翻译结果,zj表示一种新的隐藏层状态,cj表示第j个上下文向量,bj表示第j个目标词汇的偏移量;

梯度和能量的关系表示为能量的期望梯度

假定预定义分布为Q和来自于Q的样本集合V′,近似计算 如公式3;

其中,wk表示第k个翻译词汇的权重,wk=exp{ε(yk-logQ(yk))};V’表示目标翻译词汇的子集, 表示公式2能量函数的梯度,k’表示k的子集,。

7.根据权利要求6所述的基于神经机器翻译的古汉语翻译方法,其特征在于:步骤3.4中,利用小样本的古汉语词汇作为翻译子集产生较低计算复杂度,并将该种小样本方法用于迭代更新参数,且每一次仅更新与正确的先验翻译词汇相关联的词向量的翻译概率和V′对应样本词的频次;当翻译概率高于阈值时,确定候选词即为对应的现代汉语目标词;若频次高于阈值时,即可确定该样本词作为登录词会被排在翻译表优先级较高的位置上;否则,就利用UNK集外词替换技术更新登录词在翻译表中的排名,直至被挤出翻译表成为集外词。

8.根据权利要求4所述的基于神经机器翻译的古汉语翻译方法,其特征在于,步骤3.5的具体实现包括以下子步骤:步骤3.5.1:将源翻译句子符号化为 其中 表示源翻译句子,f1,f2,...,fl表示句子向量集合,l表示向量的数目,1≤i≤l;编码器首先将 编码成一系列词向量Kx是源翻译句子中词汇的数目;然后生成基于这些向量的目标翻译 和目标词;其中,编码器是一个双向循环神经网络RNN中的隐藏层,整个神经网络采用公式1更新隐藏状态;

其中,genc是一个激活函数, 是基于源翻译句子计算得到的前向和后向隐藏状态的串联;

步骤3.5.2:在解码阶段,输出句子的概率通过如下公式2和公式3进行计算;

其中, 是步骤j的隐藏状态,通过公式4进行计算;

其中,gdec和g'dec是非线性激活函数;yj表示输出的目标词或句子向量,J表示目标词或句子向量的编号;上下文向量cj作为编码隐藏层的加权和参与计算,通过公式5进行计算;

其中,权重αji用于度量源词xi翻译成yj的质量;Tx表示与yj相关的翻译源中源词的数目;

步骤3.5.3:在解码器端,通过对基于标准注意力机制的继承,得到神经机器翻译分类器在常规词汇上的词预测概率,通过公式6进行计算;

pnmt(yt|y<t,x)=softmax(f(st,yt-1,ct))   (6)其中,y<t=y1,y2,...,yt-1是输出目标翻译词序列;yt由公式7递归计算得到;

p(yt|y<t,x)=softmax(f(st,yt-1,ct))   (7)其中,f(·)是一个非线性激活函数;st是解码器在第t步的隐藏状态,由公式8计算得到;

st=g(st-1,yt-1,ct)   (8)

其中,g(·)是一个非线性激活函数;ct表示上下文向量,用于表示翻译源注释的权重和,由公式9计算得到;

其中,hj是源词xi的注释,其权重αt,j通过注意力模型计算得到。

9.根据权利要求1-8任意一项所述的基于神经机器翻译的古汉语翻译方法,其特征在于:所述方法还提供了一种古汉语翻译结果反馈评价机制,在评价机制中,通过对翻译方法的复杂度进行计算,获得翻译结果的覆盖度、忠实度和流畅度;

所述覆盖度,指的是翻译结果所对应的翻译对象在原古汉语翻译语料的百分比;

所述忠实度,描述翻译结果准确反映原古汉语翻译语料的程度;

所述流畅度,用于描述原古汉语翻译语料被翻译为现代汉语后,翻译结果符合现代汉语阅读习惯的程度;

在翻译质量要求上,严格程度排序为流畅度>忠实度>覆盖度。