利索能及
我要发布
收藏
专利号: 2022108077769
申请人: 南京师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法包括:对文本数据进行预处理,获得目标文本数据;

根据预设语料库,确定所述目标文本数据中的有效单句,所述预设语料库中包括触发词和非关键词;

通过预设算法,确定所述有效单句中的核心动词;

通过句法分析,对所述有效单句中的所有词语进行打分,获得所有词语分别与所述核心动词之间的依存距离评分;

遍历所述预设语料库,在词语属于所述预设语料库中的触发词时,将该词语的依存距离评分除以该词语在所述预设语料库中对应的权重值,获得该词语对应的目标依存距离评分;在词语属于所述预设语料库中的非关键词时,排除该词语;在词语不属于所述预设语料库中的非关键词和触发词时,将该词语的依存距离评分确定为该词语的目标依存距离评分;

从具有目标依存距离评分的词语中提取词性和位置均符合预设灾害事件模板中的关键实体信息要求,且目标依存距离评分最低的词语,作为关键实体信息的中心词,以及,从具有目标依存距离评分的词语中提取词性和位置均符合所述预设灾害事件模板中的时空信息要求的词语,且目标依存距离评分最低的词语,作为时空信息的中心词;

根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词;

将所述中心词和所述中心词的修饰词按照序列距离进行排序,获得长组合词组;

根据所述长组合词组中的关键实体信息、时间指示词和地点指示词,将所述长组合词组中的关键实体信息按照词性拆分为实体描述词和属性描述词,以及,将所述长组合词组中的时间信息按照时间指示词进行分词,以及,将所述长组合词组中的空间信息按照地点指示词进行分词,获得分词结果;

根据所述有效单句中的各个动词,构建关键实体信息之间的关系和关键实体信息与时空信息之间的关系;

对分词结果中的时空信息进行标准化处理;

将构建的关键实体信息之间的关系存储至预设灾害事件模板的关系库中,以及,将分词结果、关键实体信息与时空信息之间的关系和时空信息的标准化处理结果存储至预设灾害事件模板的事件库中,数据库包括事件库和关系库;

将事件库和关系库中的数据导入图数据库,构建洪涝型Natech灾害事件可视化知识图谱。

2.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述预设语料库的构建,包括:根据基础文本数据中的各个句子涵盖的灾害事件的信息量,对所述各个句子进行分级;

根据所述各个句子的等级,对所述各个句子进行赋值,获得经过赋值的各个句子;

根据词语在各个句子中的频次和各个句子的等级分值,确定该词语的权重值;

根据词语的权重取值,将满足第一预设条件的词语存储至语料库的非关键词词典中,将满足第二预设条件的词语和该词语的权重值存储至语料库的触发词词典中,以及将Natech灾害事件专有名词词典和灾害等级指示词存储至语料库的对应词典类别中,获得预设语料库。

3.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据预设语料库,确定所述目标文本数据中的有效单句,包括:根据预设语料库,确定所述目标文本数据中的各个单句是否包含所述预设语料库中的触发词;

将包含所述预设语料库中的触发词的单句确定为有效单句。

4.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述根据提取的所述中心词,提取所述中心词的子节点中符合词性要求的修饰词,包括:根据所述有效单句中词语间的依存关系,通过句法分析算法构建对应的句法树;

提取所述句法树中符合所述中心词的词性要求的修饰词。

5.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述将事件库和关系库中的数据导入图数据库,构建Natech灾害事件可视化知识图谱,包括:将事件库和关系库中的数据导入图数据库;

在图数据库中,将事件库中的关键实体信息对应的灾害事件和承灾体各自的名称作为主键创建节点,将事件库中的时空信息中的时间标准化结果作为主键创建节点,以及,将事件库中的时空信息中的空间信息标准化结果作为主键创建节点;

在图数据库中,通过关系库中关键实体信息之间的关系和关键实体信息与时空信息之间的关系创建连接各个节点的边。

6.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法还包括:获取所述文本数据的文本来源元数据;

根据所述文本来源元数据,提取所述文本来源元数据中与时空信息相关的中心词。

7.根据权利要求1所述的基于文本挖掘的洪涝型Natech灾害事件知识图谱构建方法,其特征在于,所述方法还包括:确定提取的所有中心词中是否存在多个相同的重复中心词;

在提取的所有中心词中包括多个相同的重复中心词时,根据预设规则,保留所述多个相同的重复中心词中的一个。