1.一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述方法包括:基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱;
对所述矿山事故事件文本数据进行预处理,具体包括:
获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集;
基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;
对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;
确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据;
所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;
将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;
基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:, 表示转移矩阵,表示整个网络的最终输出,V表示所述特征向量,b表示偏移量;
基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;
基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;
根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;
所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,所述方法还包括:基于CRF层确定所述矿山事故事件抽取结果的预测输出标签;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;
若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;
若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。
2.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量,具体包括:将所述标注文本数据集中各数据作为输入文本,以将所述输入文本基于词汇单元进行转换获得词汇级序列数据;其中,所述词汇单元为token级单元;
基于所述BERT预训练的动态多池化卷积神经网络模型的预设标记算法对所述词汇级序列数据进行拆分,获得所述标注文本数据集中各数据的子单词;其中,所述预设标记算法为:WordPiece Tokenization;
基于所述BERT预训练的动态多池化卷积神经网络模型的嵌入层确定对各所述子单词进行映射,获得各所述子单词所对应的词汇级特征向量;其中,所述词汇级特征向量包含所述子单词的语义信息。
3.根据权利要求2所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量,具体包括:根据所述词汇级特征向量确定待分类的候选事件触发词与候选事件元素的位置,以基于所述候选事件触发词与所述候选事件元素的位置,进行动态化句子切分获得句子级信息;
基于动态多池化卷积神经网络模型的嵌入层对所述句子级信息进行映射获得句子级特征向量;
基于全连接层对所述词汇级特征向量与所述句子级特征向量进行拼接,获得特征向量;其中,所述特征向量为 ,L为词汇级特征向量,P为句子级特征向量。
4.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量之前,所述方法还包括:确定所述动态多池化卷积神经网络模型的目标函数,以基于所述目标函数对所述动态多池化卷积神经网络模型进行迭代优化;其中,所述目标函数为:;
其中,θ表示影响事件类型的参数,i表示第i个事件类型,m表示事件类型的总量,x表示输入的特征,y表示要预测的目标,J(θ)表示极大似然估计。
5.根据权利要求1所述的一种基于事件自动抽取的矿山事件知识图谱构建方法,其特征在于,所述对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱,具体包括:获取所述处理后的矿山事故事件抽取结果中各矿山事故事件的事件触发词,作为所述矿山事件知识图谱的事件节点;
基于各所述事件节点所对应的特征向量,确定所述矿山事件知识图谱的事件节点的事件关系,以基于所述事件关系确定所述矿山事件知识图谱的边;
对所述事件节点与所述矿山事件知识图谱的边,获得所述矿山事件知识图谱。
6.一种基于事件自动抽取的矿山事件知识图谱构建装置,其特征在于,所述装置包括:数据标注单元,用于基于公开新闻网站爬取矿山事故事件文本数据,对所述矿山事故事件文本数据进行预处理,以对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集;
第一向量提取单元,用于基于BERT预训练的动态多池化卷积神经网络模型,获取所述标注文本数据集中各数据的词汇级信息,并对所述词汇级信息进行标识获得词汇级特征向量;
第二向量提取单元,用于根据动态多池化卷积神经网络模型捕获句子级信息,以对所述句子级信息进行标识获得句子级特征向量,并拼接所述词汇级特征向量与句子级特征向量获得特征向量;
抽取单元,用于将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果;
映射单元,用于对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,并对处理后的矿山事故事件抽取结果进行映射获得矿山事件知识图谱;
对所述矿山事故事件文本数据进行预处理,具体包括:
获取各所述矿山事故事件文本数据的数据格式,以基于所述数据格式将所述矿山事故事件文本数据划分到不同的文本数据集;
基于所述BERT预训练的动态多池化卷积神经网络模型的输入格式确定所述文本数据集中的待转换数据集,以对所述待转换数据集进行数据转换,获得符合格式的第一文本数据;
对各所述第一文本数据基于摘要算法进行数据去重处理,获得去重后的第二文本数据;
确定所述第二文本数据中的中文字符占比,若确定所述中文字符占比小于预设占比阈值,则对所述第二文本数据进行删除,获得处理后的矿山事故事件文本数据;
所述对处理后的矿山事故事件文本数据基于众包平台进行半自动化标注,获得矿山事故事件的标注文本数据集,具体包括:获取各所述处理后的矿山事故事件文本数据的摘要数据,以基于自动化算法确定所述摘要数据所对应的自动化标注;其中,所述自动化标注包括:事件类型标注、事件元素标注;
将所述各所述处理后的矿山事故事件文本数据与所述对应的自动化标注上传到所述众包平台;
基于所述众包平台的人工经验对各所述处理后的矿山事故事件文本数据所对应的自动化标注进行校验,获得矿山事故事件的标注文本数据集;
将所述特征向量输入分类器进行事件触发词的抽取,获得矿山事故事件抽取结果,具体包括:确定第一softmax分类器中事件触发词的分类计算公式;其中,所述分类计算公式为:, 表示转移矩阵,表示整个网络的最终输出,V表示所述特征向量,b表示偏移量;
基于所述分类计算公式确定所述特征向量的分类结果,并基于softmax函数计算当前待分类的候选事件触发词分类结果中,概率最高的事件类型为所述矿山事故事件的事件分类结果;
基于第二softmax分类器对所述事件分类结果的事件元素进行分类,确定所述事件分类结果所对应的事件元素角色,为所述矿山事故事件的元素分类结果;
根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果;
所述根据所述事件分类结果与所述元素分类结果,确定所述矿山事故事件抽取结果之后,还包括:基于CRF层确定所述矿山事故事件抽取结果的预测输出标签;
对所述矿山事故事件抽取结果进行事件标识,以基于所述事件标识对所述矿山事故事件抽取结果进行处理,具体包括:基于所述矿山事故事件抽取结果进行事件标识,以获取所述矿山事故事件的事件真实性标识与事件共指标识;
若基于所述事件真实性标识确定所述特征向量所对应的矿山事故事件为非真实事件,则对所述矿山事故事件抽取结果中该矿山事故事件进行删除;
若基于所述事件共指性标识,确定特征向量所对应的矿山事故事件为同一事故事件,则对所述特征向量所对应的处理后的矿山事故事件文本数据进行数据合并。