1.一种远程监督事件抽取方法,其特征在于:包括:S1构建待抽取信息的触发词林;
S2构建待抽取信息的知识库;
S3构建待抽取信息的事件数据集;
S4通过神经网络模型进行事件抽取;
其中,
所述步骤S1包括:
S11通过手工定义的方式,定义待抽取信息领域内的某一样本信息的可能事件类型,及不同事件类型下的部分事件,构建不同事件的一组核心触发词,设置所述核心触发词在其对应事件中的触发权重;
S12通过手工定义的方式,设置S11中定义的不同事件在不同事件类型下的触发权重;
S13获得不同类型事件的词核向量;
S14通过候选触发词与所述词核向量的加权词向量余弦相似度,及其与相似度阈值的比较,获得被定义事件的其他触发词;
S15由核心触发词及其他触发词组成该事件的触发词林;
其中,所述词核向量通过对所述核心触发词的词向量的最大池化获得;
所述步骤S2包括:
S21获得待抽取信息所在领域内的现有知识文本,即储备文本;
S22对储备文本进行包括分句、指代消歧及语义角色标注在内的基础处理;
S23对通过基础处理得到文本句子进行触发词匹配,根据匹配后的事件得分,判断该文本句子的事件类型;
S24对通过基础处理得到文本句子的语义角色序列,及触发词与设定模板匹配,根据匹配结果,确定该文本句子的事件论元;
S25由所得事件类型、事件论元及所述触发词林组成所述待抽取信息的知识库;
其中,所述设定模板为:
[A0,触发词,A1],其中A0表示施事者,A1表示受事者;
其中,所述事件得分通过下式获得:
其中,n表示触发词xk在文本句子内出现的频次,s表示该文本句子内的全部触发词数量, 表示触发词xk在事件类型为i的事件j下的得分,其可通过下式获得:其中,wi,j表示触发词xk在事件类型为i的事件j下的触发权重,dk表示触发词xk的词向量,cj表示事件j的词核向量,|dk|表示触发词xk的词向量的模,|cj|表示词核向量的模。
2.根据权利要求1所述的事件抽取方法,其特征在于:所述加权词向量余弦相似度为所述候选触发词与所述词核向量的词向量余弦相似度与不同事件在不同事件类型下的触发权重的乘积。
3.根据权利要求2所述的事件抽取方法,其特征在于:所述词向量、所述候选触发词及所述词向量余弦相似度通过Word2vec模型获得。
4.根据权利要求1所述的事件抽取方法,其特征在于:所述步骤S3包括:S31将待抽取信息进行分割,通过所述触发词林中的触发词对分割后不同部分的文本进行匹配,根据匹配到的触发词在不同事件类型下的事件得分,及其与得分阈值的比较,获得不同部分文本的候选事件类型;
S32通过待抽取信息的知识库对有候选事件类型的不同部分文本进行事件匹配,获得不同部分文本的事件数据,进而获得待抽取信息的事件数据集;
所述事件数据包括事件类型与事件论元。
5.根据权利要求1所述的事件抽取方法,其特征在于:所述神经网络模型包括事件分类模型与论元抽取模型;其中所述事件分类模型包括可对句子内全部词向量及实体词向量分别进行最大池化的最大池化层,将所述全部词向量最大池化得到的句向量及所述实体词向量最大池化得到的实体向量作为输入并进行转换的transformer编码层,将转换后的句向量进行卷积的卷积层,及其后的全连接层与softmax层;所述论元抽取模型包括对实体上下文信息进行提取的卷积层,其后的最大池化层,将最大池化层得到的上下文特征向量与所述实体向量拼接后作为输入的lstm网络层,及其后的全连接层与softmax层。
6.根据权利要求5所述的事件抽取方法,其特征在于:所述神经网络模型的损失函数为事件分类模型的交叉熵损失函数与论元抽取模型的交叉熵损失函数的和。