1.一种针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,包括如下步骤:步骤1:将原始文本通过预训练的编码器获得原始文本词嵌入,预设事件类型词嵌入;
步骤2:将原始输入向量通过对称双向注意力机制进行原始文本词嵌入以及事件类型词嵌入的注意力交互,获得语义增强后的原始文本词嵌入与语义增强后的事件类型词嵌入;
步骤3:设置抽取权重,将原始文本词嵌入以及语义增强后的原始文本词嵌入通过抽取权重抽取各词嵌入的重要文本,将分别抽取的重要文本进行整合获得优化后的文本词嵌入;
步骤4:将原始文本词嵌入、优化后的文本词嵌入以及对应的语义增强后的事件类型词嵌入进行拼接获得拼接后的文本词嵌入,根据拼接后的文本词嵌入获取事件类型对应的触发器;
步骤5:根据预设问题角色构建对应的问答任务,获取问答任务中拼接文本词嵌入的每个词的起始和终止概率,并通过位置解码算法获取当前问题角色的事件元素,其中,位置解码算法具体为:当当前词的起始和终止概率均大于所有分隔符的起始和终止概率,且当前词不在问答任务的问题语句中时,计算当前词的起始和终止概率的概率和,将所有词中概率和最大的词作为当前问题角色的事件元素;
步骤6:完成所有问题角色的事件元素获取后,构建事件抽取结果,完成事件抽取过程。
2.如权利要求1所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述步骤2中的对称双向注意力机制表示为:式中,dh是缩放因子;Q,K,V分别是查询、键、值的张量。
3.如权利要求1所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述步骤3中,通过抽取权重抽取各词嵌入的重要文本的具体公式如下:式中,g为抽取权重;m和n分别表示两个输入量。
4.如权利要求3所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述抽取权重的设置公式为:g=σ(Wg[m;n]+bg)
式中,σ(·)表示sigmoid激活函数;表示逐个元素相乘;[;]表示级联操作;Wg和bg均为模型内部的训练参数。
5.如权利要求1所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述步骤3的具体过程为:步骤31:将原始文本词嵌入以及语义增强后的原始文本词嵌入,通过门控方程获取抽取权重,根据抽取权重来分别抽取原始文本词嵌入以及语义增强后的原始文本词嵌入的重要文本,将分别抽取的重要文本进行整合获得过渡的文本词嵌入;
步骤32:将过渡的文本词嵌入以及语义增强后的事件类型词嵌入,通过门控方程获取抽取权重,根据抽取权重来分别抽取过渡的文本词嵌入以及对应的语义增强后的事件类型词嵌入的重要文本,将分别抽取的重要文本进行整合获得优化后的文本词嵌入。
6.如权利要求1所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述步骤4中,通过将拼接后的文本词嵌入分类为二进制标签的方式来判断和获取触发器。
7.如权利要求1所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述步骤5中,获取问答任务中拼接文本词嵌入的每个词的起始和终止概率的具体方法为:先通过RoBERTa模型将输入的每个词转化为对应的嵌入向量,再通过softmax函数对获取的嵌入向量进行归一化处理,得到每个词的起始和终止概率。
8.如权利要求7所述的针对具有重叠和嵌套特征的文本事件抽取方法,其特征在于,所述嵌入向量包括:词嵌入向量、位置嵌入向量以及分隔符嵌入向量。