1.一种基于门控机制和图注意力网络的中文实体关系抽取方法,其特征在于,包含以下步骤:步骤1)使用中文BERT预训练模型将文本转换为机器可以识别的向量形式;
步骤2)将实体嵌入拼接到每个词嵌入后面,采用一种全局信息门控机制,计算门控向量,实现词嵌入的实体语义强化;
步骤3)对文本进行依存句法分析,获得依存句法树,构造出邻接矩阵、依赖类型矩阵和依赖方向矩阵,使用掩码自注意力求得注意力权重矩阵,进而在图注意力网络中对文本句子进行特征提取;
步骤4)从图注意力网络的输出中,获取两个实体和句子的表征向量,经过多层感知机将该表征向量转换到分类空间,输入至分类器中完成关系分类;
所述步骤2)中词嵌入的实体语义强化指的是对于BERT模型转换得到的词嵌入进行实体语义增强,具体包含以下步骤:
2‑1)将头实体和尾实体的嵌入表示拼接,然后使用一个前馈网络将两个实体的语义信息进行融合,其过程公式化为:ve=tanh(We[vh,vt]+be)
其中,vh和vt分别对应头尾实体的词嵌入, 是可学习的参数矩阵,用于拼接实体嵌入的线性转换, 是一个偏置项,tanh为双曲正切函数,ve是融合了头尾实体信息的实体嵌入;
2‑2)将该融合后的实体嵌入与句子中每个词语的词向量进行拼接,初步得到实体嵌入增强的候选词向量;同时,将这些候选词向量加和求平均,获得融合全局信息和实体嵌入的监督向量s,以上过程可以表示为:其中, 表示第i个词语的候选词向量,n为句子s中词语的数量;
2‑3)以监督向量与候选词向量为输入,输出每个候选词向量所对应的门控向量:其中, 是一个需要训练的参数矩阵, (dg=dw+de)是偏置项,运算符⊙表示将两端向量按元素相乘,sigmoid函数输出范围为(0,1);
2‑4)计算第i个词语在经过实体嵌入增强后的词嵌入表示 将该词语的候选词向量与对应的门控向量按元素相乘,其计算过程如下式:所述步骤3中根据句子的依存句法树构造出邻接矩阵、依赖类型矩阵和依赖方向矩阵,采用掩码自注意力机制计算注意力转移权重,进而在图注意力网络中对文本进行特征提取,具体步骤,包括:
3‑1)根据句子的依存句法树构造邻接矩阵A,设依存句法树上有n个结点,那么可以使用一个n×n的邻接矩阵A来表示该依存句法树;当结点i和结点j之间存在依赖边时,A中元素ai,j和aj,i为1,否则为0,此时A是一个无向图;特别地,依存树转换的邻接矩阵中,每个结点都有一个自旋边,即ai,i=1;
根据依存句法树的提供的依赖类型和依赖方向信息,构造依赖类型矩阵T和依赖方向矩阵D的构造方式;依赖类型矩阵T大小为n×n,若结点i和结点j的依赖类型为nsubj,则T中元素ti,j的值为type_to_id_mapping(nsubj),type_to_id_mapping表示依赖类型到数值的映射;依赖方向矩阵D大小同样为n×n,若存在依赖边i→j,则元素di,j=1表示该依赖边是正向的,反之dj,i=‑1表示依赖边是反向的;
3‑2)图注意力网络采用了一种掩码自注意力机制,在每一层计算一个全新的信息传递的注意力权重矩阵,该权重矩阵不仅完全保留了原始依存句法树的结构信息,而且赋予了依赖边不同的权重;实体嵌入增强后的词向量序列为 同时是图注意力网络的初始输入 符号 表示第i个词语在l层的隐层向量;在一个L层的图注意(l)
力网络中,第l层会使用掩码自注意力计算得到一个n×n邻接矩阵P , 表示结点i和结点j之间依赖边的权重,其计算过程如下式:其中,ai,j表示原始的邻接矩阵中的权重,它只有0,1两种取值,当ai,j=0时,对应自注意力计算得到的 当ai,j=1时, 表示依赖类型ti,j所对应依赖类型的嵌入向量,fun(·)是一个注意力函数,用于计算两个节点间依赖边的重要程度值,即ei,j,该注意力函数的具体细节如下式所示:其中,LeakyRelu是激活函数,[·]表示向量的拼接操作,f(di,j)表示一个与依赖边方向相关的函数,若依赖边i→j是正向的则使用正向的参数矩阵,否则使用反向的参数矩阵,细节下所示:其中, 分别对应正向和反向可学习的权重矩阵;
3‑3)结合本层的注意力权重矩阵和网络输入,计算图注意力网络中每个结点的隐层向量,其过程如下式表示:(l) (l)
其中,W 表示第l层图注意力网络的可学习权重矩阵,b 是偏置项。
2.根据权利要求1所述的基于门控机制和图注意力网络的中文实体关系抽取方法,其特征在于,所述步骤1)的使用中文BERT预训练模型将文本转换为机器可以识别的向量形式,即文本到词向量;包含以下过程:
1‑1)将句子s分割为一个字序列,然后调用BERT预训练模型将字序列向量化,形成字向量序列{c1,c2,…};
1‑2)采用现成的自然语言处理工具将句子进行分词得到词序列;
1‑3)利用第一步的字向量序列{c1,c2,…},将词序列初始化为词向量序列{v1,v2,…},规则为,词向量是其所包含字的向量的加和求平均。
3.根据权利要求1所述的基于门控机制和图注意力网络的中文实体关系抽取方法,其特征在于,所述步骤4)中使用最大池化操作获得句子中两个实体的表征向量 和表达整个句子语义的表征向量(hsent),然后将三个向量进行拼接,获得输出向量hfull;输出向量不能直接用于关系分类,需要输入至多层感知机中转换至分类空间,其过程如下式:o=Mdhfull+b
其中, 是可学习的权重矩阵,改变关系特征向量的维度到分类空间中,是偏置向量,|R|是预定义关系类型的数量;
然后将o输入至softmax分类器,得到实体对关系分类的归一化概率分布,则句子s分类为真实关系r的概率为:其中,h、t是句子s中包含的头尾实体,r表示该实体对的真实关系,ok表示向量o的第k个元素。
4.根据权利要求1所述的基于门控机制和图注意力网络的中文实体关系抽取方法,其特征在于,对实体关系抽取模型进行参数优化,采用随机梯度下降方法,目标函数则是分类任务中常用的交叉熵损失函数,其定义如下:其中,θ表示模型的训练参数,|B|表示一个训练批次中实例的数量,si是训练批次B中第i个句子实例,ri对应实体对的真实关系。
5.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1‑4中任一项所述的基于门控机制和图注意力网络的中文实体关系抽取方法。
6.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1‑4中任一项所述的基于门控机制和图注意力网络的中文实体关系抽取方法的计算机程序。