1.一种基于序列标注的文档级事件论元抽取方法,其特征在于,包括以下步骤:步骤1:将语料库中的文档语料进行实体识别处理,并针对文档识别出的实体获取Wikipedia先验知识;
步骤2:通过步骤1得到的先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示;
步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示;
步骤4:将步骤3得到的嵌入层词表示输入到循环神经网络中,经过句子跨度和段落跨度的两种3层BiLSTM特征提取器,得到每个词的句子跨度和段落跨度的上下文词表示;
步骤5:将步骤4得到的两种跨度的上下文词表示分别输入到句子跨度和段落跨度的上下文注意力机制模块中,得到每个词在不同上下文跨度中的不平等特征表示;
步骤6:将步骤5中得到的句子跨度和段落跨度特征表示输入到门控注意力机制模块中进行特征融合,得到最终的文档多跨度上下文语义融合特征表示;
步骤7:将步骤6中得到的多跨度上下文语义融合特征表示作为CRF序列标注层的输入,采用BIO标注格式对事件论元及其角色类型进行标注,训练得到最优模型,最后针对语料库的测试集文档,利用训练好的抽取模型抽取出其中的事件论元。
2.根据权利要求1所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤1具体包括以下步骤:首先采用spaCy工具对文档进行实体识别,然后通过识别出的实体爬取Wikipedia与实体相关的先验知识。
3.根据权利要求2所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述通过识别出的实体爬取Wikipedia与实体相关的先验知识,具体包括将:采用爬虫技术爬取Wikipedia网站上与文档中实体相对应的解释性文章,取其第一段与实体进行映射作为先验知识语料。
4.根据权利要求1‑3任一项所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤2中通过先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示,具体包括:通过步骤1获取的先验知识语料,针对每个实体提取并筛选其实体语义词集,假设考虑每个实体有N语义类型词,实体e的语义类型词集合表示为De,si∈De是实体e的第i个的语义d
属性词, 是实体语义属性词si的GloVe嵌入,然后生成实体e的实体语义嵌入e :使用参数α来控制实体语义嵌入的权重,对于构成实体的每个词wj, 是构成实体e的s
词wj的GloVe嵌入,其词跨度语义增强嵌入表示e如下:
5.根据权利要求4所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示,具体包括:对于每个词xi,得到了其词跨度实体语义增强嵌入 使用BERT‑base生成的句子跨度和段落跨度的上下文表示,对于每个词xi,有其上下文表示 最终的嵌入层词表示由实体语义增强词嵌入和上下文词表示拼接而成,
6.根据权利要求5所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,步骤4中,每个词的句子跨度和段落跨度上下文表示具体方法是:首先建立两个3层的Bi‑LSTM编码器,即BiLSTMsent.和BiLSTMpara.,然后将MUC‑4数据集中所有文档划分为单个句子s1,s2,...,sn,为了构造段落跨度训练数据集,计算数据集中所有文档的平均段落数,记为m,从每个句子i开始,将m个连续的句子si到si+m‑1连接起来作为一个段落,形成长度为m的重叠的候选序列,序列1由{s1,s2,s3}组成,序列2由{s2,s3,s4}组成,以此类推;为了构造段落跨度开发数据集和测试数据集,只需将连续的m个句子按顺序分组,生成n/p个序列;
句子跨度上下文语义表示提取,将段落中每个词的句子跨度上下文特征表示如下:
段落跨度上下文语义表示提取 ,将段落中每个词的段落上下文特征表示如下:
7.根据权利要求6所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤5中,每个词在不同上下文跨度中的不平等特征表示具体方法是:通过步骤4得到其句子跨度的词上下文隐层表示将句子跨度的单个词表示向量记为 针对每个单词的词表示向量引入双线性句子上下文注意力机制获取对句子更具重要性的上下文相关的语义信息,具体如下:其中,usi表示的是句子中单个词表示 与句子中上下文词表示 的相关性,Ws表示的是可学习的权重矩阵,bs表示的是偏置,asi表示的是句子中每个词在句子上下文中的重要性,Rsent.表示的是句子中每个词的基于对句子跨度上下文语义贡献度的权重和;
与句子上下文注意力机制相似,针对从步骤4得到的段落跨度的词上下文隐层表示将段落跨度内的单个词表示向量记为 针对每个单词的词表示向量 引入双线性段落上下文注意力机制获取对段落更具重要性的上下文相关的语义信息,具体如下:
其中,upi表示的是段落中单个词表示 与段落中上下文词表示 的相关性,Wp表示的是可学习的权重矩阵,bp表示的是偏置,api表示的是段落中每个词在段落上下文中的重要性,Rpara.表示的是段落中每个词的基于对段落跨度上下文语义贡献度的权重和。
8.根据权利要求7所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤6中特征融合的具体步骤为:对于每个词xi,采用门控注意力信息融合:门控聚合通过句子跨度上下文词表示和段落跨度上下文词表示计算门控向量gi,以此来控制从这两个表示的信息贡献度;
gi=σ(Wc1Rsent.+Wc2Rpara.+bc)其中Wc1,Wc2表示可学习的权重矩阵,bc表示的是偏置;σ表示的是sigmoid函数;
采用gi和1‑gi作为句子跨度表示Rsent.和段落跨度表示Rpara.的分配权重;最终的门控信息融合表示Ri为Rsent.和Rpara.的权重和:其中 表示同位元素对应相乘运算。
9.根据权利要求8所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤7中,序列标注的具体方法是:在文档级事件论元抽取任务中,采用CRF条件随机场以BIO的标注格式对文档中的事件论元进行标注,CRF考虑了相邻标签之间的依赖性,CRF将经过线性层的输出作为CRF的发射概率矩阵P,Pi,j表示第i个位置的词为标签j的概率,A为CRF的转移矩阵, 表示的是第i个标签到第i+1个标签转移得分.对于包含K个角色类型标签的标签序列y={y1,y2,...,yk},可定义当前序列的得分为:
由以上公式可以看出,每个词映射到标签的得分经由两部分决定,包括上层输出和CRF自带的转移矩阵,采用softmax计算归一化后的概率,公式为采用最大化对数似然函数优化目标函数,训练样本(x|y)的对数似然为在解码阶段,采用动态规划的Viterbi算法求最右路径,得到序列中对应标签的概率,最大概率对应的标签被认为是正确标签,概率公式为
10.根据权利要求9所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤7中,抽取测试集文档的事件论元的具体方法是:首先通过分词器,将测试集文档转换为符号序列,然后利用训练好的事件论元抽取模型得到相应的BIO格式的标签序列对,通过得到的标签序列对还原测试集文档中对应的词,作为测试集文档的事件论元抽取结果。