1.一种基于多头注意力机制的事件论元角色抽取方法,其特征在于包括如下步骤:步骤(1)数据集文本预处理,输出预处理好的文本和对应的标签;
步骤(1)所述的预处理过程如下;
1-1.将数据集文本中的标注信息和文本内容分离;
1-2.将文本内容转换成词向量;
1-3.输出预处理好的文本和对应的标签;
步骤(2)训练融合多头监督注意力机制的双向GRU网络;
2-1.特征提取,将步骤(1)中预处理好的文本和对应的标签输入双向GRU网络提取特征,输出每个词编码;
2-2.训练多头监督注意力机制,将注意力机制输出的注意力向量与步骤2-1中的词编码做点乘运算输出最终融合注意力向量的词编码;
步骤(3)对文本进行语义依存分析,输出触发词与候选论元之间的语义依存路径;
步骤(4)将预处理好的文本输入步骤(2)中网络训练后输出每个词的编码,融合步骤(3)中的语义依存路径输出<触发词编码,候选论元编码,语义依存路径>论元分类结构;
步骤(5)将论元分类结构输入分类网络训练并进行分类;
所述的步骤1-1具体为:
将XML标注内容处理成每个单词对应的标注,具体操作为:原始XML标注文本通过字符偏移量标注了事件触发词的起始字符位置和偏移量;首先将事件文本通过分词工具进行分词,同时根据XML标注文本中的信息,将事件文本中的每一个词进行编码,即根据每个词是否是事件触发词分别进行1-38编码,预定义38种事件类型;根据标注文件中的论元角色信息为文中每个实体论元制定对应的论元角色编码;
步骤1-2具体为:
首先通过大量新闻类文本训练word2vec模型,使用训练好的word2vec模型,将步骤1-1中的文本内容转化为词向量,交给后续网络。
2.根据权利要求1所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤2-2具体实现如下:所述双向GRU神经网络模型中,将输入数据随机取70%作为训练数据,15%作为验证数据,剩余15%作为测试数据;选取GRU作为递归神经网络提取文本中每个词的篇章信息,即全局特征;
利用双向GRU输出的隐藏层编码特征,输入注意力机制层,计算得出每个隐藏层向量的注意力向量;
第k个注意力头学习到的第j个词对于第i个词的注意力权重向量 表示为:其中,hi,hj是第i个词和第j个词在双向GRU中的输出,f(·)函数表示对hi,hj进行相关度计算,σ(·)函数为sigmoid激活函数,exp(·)为指数函数,j取值从0到n,n为句子长度;
将n个注意力头连接得到第j个词对第i个词的完整注意力向量αij:将每个触发词与候选实体的注意力向量和候选论元词编码hk相乘累加后得到第i个候选实体的最终表示Ri为:其中w为注意力机制范围为句子长度,hj表示第j个词双向GRU的输出,αij为第j个词对第i个词的注意力向量;
计算隐藏层向量和注意力向量的点乘结果得出最终每个词的向量,输出最终编码Ri。
3.根据权利要求2所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(3)所述文本进行语义依存分析,具体过程如下:将文本信息通过Stanford CoreNLP工具进行语义依存分析得到语义依存分析树;将树结构信息构造成图结构,利用深度优先搜索遍历图得到触发词到每个词的路径信息;将文本路径信息进行one-hot编码输出语义依存路径编码P。
4.根据权利要求3所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(4)所述文本进行语义依存分析,具体过程如下:针对每一个触发词,找到该句中的所有非触发词论元实体的编码,以及这些论元实体和触发词之间的语义依存路径编码;将触发词编码和上述两个编码连接输出<触发词编码ht,候选论元编码Ri,语义依存路径编码P>。
5.根据权利要求4所述的一种基于多头注意力机制的事件论元角色抽取方法,其特征在于步骤(5)所述论元分类结构输入分类网络训练并进行分类,具体过程如下:分类主要通过一个softmax操作进行,具体通过计算候选论元实体在各类论元角色上的概率分布p(ai|ti,Ri,θ):其中,ai是论元角色类型,ti是事件类型,Ri是候选论元最终编码,m表示该论元角色在该类型事件是否允许,oi表示输出向量o的第i个维度结果,n表示ti类事件中的论元角色总数,i表示当前词的序号;
定义负对数似然损失函数J(θ);并表示成两部分,一部分是编码网络部分到最终分类网络的全局损失,另一部分表示注意力向量部分损失;
其中x(i)是ti,Ri的统称,为注意力对整体模型的影响系数,D(θ)是监督训练中注意力向量的损失函数;采用均方误差作为损失函数:其中, 为第j个词对第i个词的注意力向量期望值, 为计算得到的第j个词对第i个词的真是注意力值;使用随机梯度下降法和AdaDelta更新规则对分组的批数据进行训练;
通过dropout实现正则化。