利索能及
我要发布
收藏
专利号: 2020115546023
申请人: 内蒙古工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-12-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种融合语义知识的蒙汉神经机器翻译方法,基于编码器‑解码器架构,其特征在于,所述编码器为由编码器E1和编码器E2组成的双编码器架构,利用编码器E1编码源语言句子向量,利用编码器E2编码源语言句子向量所对应的AMR语义图,所述AMR语义图的基本结构是单根有向无环图,将实词抽象为概念作为图上的节点,将没有实际意义的虚词抽象为边,编码器E1和编码器E2的信息叠加送到具有双注意力机制的非自回归解码器D中进行解码;

所述编码器E1采用双向GRU单元编码源句子向量,所述编码器E2采用图卷积神经网络编码源语言句子向量所对应的AMR语义图,每一个完整的AMR语义图为一个单一的状态,图中的节点称为子状态;

给定一个AMR语义图G=(V,E),V表示节点的集合,E表示边的集合, 表示每个节点vj∈V的状态向量,则AMR语义图的状态gi表示为:i∈[0,T]

为捕获全局信息,节点之间通过一系列的状态转换进行信息交换,即:g0,g1,…,gT,其中T是状态转换数,伴随着状态转换,图中的子状态通过边交换信息,在每个循环步骤中,每个节点通过接收来自其相邻节点当前状态的信息来更新其当前状态;

在所述图卷积神经网络中加入GRU循环单元,用更新门zt表示前一时刻节点的状态信息带入当前时刻的程度,用重置门rt来控制前一时刻节点信息写入当前时刻的多少,节点的隐藏状态 的信息包含该节点的入边和出边信息,边的输入信息用 表示,i表示入边的索引,j表示出边的索引,lb表示边上的标签,即两点之间的关系标签,节点vj在t时刻的入边 和出边 信息表示为:IN(j)和OUT(j)分别表示节点vj所有入边和出边的集合;

一个AMR语义图由gt‑1到gt的状态转换用如下公式表示:

其中γt表示节点的输出信息,Wr、Wz、 Wo分别表示权重矩阵, 表示使用重置门之后得到的隐藏状态,再通过更新门得到新的隐藏状态向量 σ表示sigmod函数;

所述非自回归解码器D采用具有双注意力机制的循环神经网络,一部分用于接收源语言序列信息,另一部分用于接收AMR语义图信息,其中AMR语义图中仅接收图的最后一个状态的信息,即

2.根据权利要求1所述融合语义知识的蒙汉神经机器翻译方法,其特征在于,在编码之前对蒙汉平行语料库进行预处理:对于汉语首先采用jieba分词工具去掉标点符号,并在词之间加上空格,并采用美国加州大学的AMR语义解析器将汉语源语言句子解析为AMR语义图;对于蒙古语采用BPE进行细粒度的切分。