1.一种基于本体的多粒度城市暴雨内涝知识图谱构建方法,其特征在于,包括如下步骤:
S1.进行本体体系的划分,对划分好的本体类别体系进行概念、类属定义,构建知识图谱模式层,本体是结构化知识库的概念模板,利用先验知识进行本体体系划分;对划分好的本体一级类下进行二三级类的划分,定义实体间的关联关系,形成良好的概念层次知识体系;
S2.对城市暴雨内涝的地点多粒度分层,构建多粒度知识图谱模式层,把城市暴雨内涝事件的发生地点作为主节点,对发生地点进行分层,各层地点之间以关系相连接;
S3.对数据进行知识抽取,其中知识抽取是将存在于多源数据中的概念、实体及相互之间的关系、属性知识要素提取出来,分为命名实体识别、关系抽取,将抽取到实体和关系映射到模式层中,构成一个个三元组数据;
S4.将得到的三元组数据存储在Neo4j图数据库,构建基于本体的多粒度城市暴雨内涝知识图谱;
所述S1中还包括如下步骤:
S101.进行本体体系的划分:根据知识图谱推理理论,结合暴雨内涝预警的特征,城市暴雨内涝知识图谱围绕城市内涝灾害事件、灾情数据、灾情推理任务3个核心要素;
S102.对划分好的本体类别体系进行概念、类属细分,完成实体模式层的构建;
所述步骤S102中包括以下步骤:
S1021.依据简单事件模型理论基础上,得到城市暴雨内涝事件六要素:简单事件模型六要素“5W1H”,何事What、何人Who、何时When、何地Where、何故Why和如何How六要素的基础上,删去“何人Who”要素,添加“程度How Much”要素,即内涝灾害名称、时间、地点、原因、灾害程度、预警下个内涝事件六要素;
S1022.参考自然灾害系统理论,得到城市暴雨内涝事件属性表述五类别:依据自然灾害系统理论,致灾因子、孕灾环境、承灾体组成了区域灾害系统,三者相互作用而产生灾情,结合自然灾害承灾体分类与代码、自然灾害灾情统计相关国家标准,从灾害事件基本属性、致灾因子、孕灾环境、承灾体以及灾情信息五个方面对城市暴雨内涝灾害事件的属性进行描述;
S1023.对知识图谱本体体系的实体进行概念、类属的细分,完成事件模式层的构建,根据城市暴雨内涝事件六要素,属性表述五个类别,分别对城市内涝灾害事件、灾情数据、灾情推理任务三个核心要素进行概念、类属的细分;
S1024.定义实体间的关联关系,结合实体模式层,完成构建城市暴雨内涝知识图谱模式层:实体间的关联关系,包括并列关系、层级关系、整体—部分关系、相关关系和因果关系这5种类型,每种类型包含多种描述相应关系的词汇,从而依据语句表征提取准确的关系描述,结合S1023步骤实体模式层,完成构建城市暴雨内涝知识图谱模式层;
所述步骤S2包括如下步骤:
S201.多粒度知识图谱的分层依据:依据地学知识图谱的时空特性,将粒计算理论引用到地学知识图谱地理地点中,对城市暴雨内涝事件的发生地点进行分层;
S202.根据分层依据,对地理地点进行多粒度分层,构建多粒度城市暴雨内涝知识图谱模式层:根据步骤S201所述分层依据,把城市内涝事件的发生地点分成4种不同地点粒度的地点序列:区级、街道级、精确可定位地点、物理线路,从而,在城市暴雨内涝知识图谱模式层基础上,对地理地点分层,构建了多粒度城市暴雨内涝知识图谱模式层;
所述步骤S3包括以下步骤:
S301.实体抽取:实体抽取从数据集中将相关实体识别抽取出来,可以用于解决互联网文本数据的爆炸式信息过载的问题,采用深度学习进行实体抽取;
S302.在实体抽取基础上进行关系抽取:在命名实体识别的基础上,进行关系抽取,使用BiGRU‑Attention模型对实体间关系进行抽取,注意力机制对不同输入计算相应权重,将输入值与权重值进行动态相乘;
S303.将抽取到的实体和关系数据映射到知识图谱模式层:根据语义相似度,将抽取到的实体、关系映射到步骤S2构建好的多粒度知识图谱本体概念中的实体和关系类型中,得到一个个三元组数据;
所述S301包括以下步骤:S3011、中文预分词:基于实体Mask的BERT词向量处理下,在词向量基础上顾及句子级别,BERT模型是结合ELMO和GPT的优势而构造出来的新语言模型,创新性使用遮蔽语言模型和下一步预测2个任务进行预训练,利用先验知识进行相关领域的实体识别,然后将识别出的实体进行Mask,经过操作生成Embedding序列送进Transformer中,提取特征,最后得到语义丰富的词向量,得到句子级别语义特征;
S3012、在中文预分词基础上,进行实体抽取:采用BiLSTM‑CRF模型,采用BiLSTM模型进一步提升模型利用上下文信息的能力,可以有效标注文本序列和标签之间的关系;CRF能够考虑到相邻标签之间的关系,从而获得全局最优标签序列。
2.根据权利要求1所述的一种基于本体的多粒度城市暴雨内涝知识图谱构建方法,其特征在于:所述S1023中对城市内涝灾害事件、灾情数据、灾情推理任务三个核心要素进行概念、类属的细分包括:(1)城市内涝灾害事件实体下分二级类:地点、时间、致灾原因、灾情程度,时间属性下分三级类:开始时间、持续时间、结束时间、正在发生时间;致灾原因属性下分三级类:地形地貌、气象、水文;灾情程度下分三级类:人口被困及伤亡、房屋损毁、道路设施损毁;
(2)灾情数据下分二级类:依照数据来源不同分为微博舆情数据、行政区划图、地区基础信息;
(3)灾情推理任务下分二级类:下一个内涝事件预警、灾区次生灾害预测,下一个内涝事件预警预警下分三级类:地点、发生时间、发生概率;灾区次生灾害预测下分三级类:次生灾害类型、发生时间、发生概率。
3.根据权利要求1所述的一种基于本体的多粒度城市暴雨内涝知识图谱构建方法,其特征在于:所述S4中将得到的三元组数据存储在Neo4j图数据库,构建可视化的基于本体的多粒度城市暴雨内涝知识图谱:使用Neo4j图数据库,将实体—关系—实体、实体—属性—属性值三元组当中的首尾部分存储为相应的节点,属性关系、语义关系存储为边,从而实现三元组数据到知识图谱中节点和边的映射。