1.一种船舶产业知识图谱构建与分析方法,其特征在于,包含以下步骤:(1)预定义船舶产业知识图谱中的实体以及实体之间的关系,明确船舶产业图谱的整体范围,采用自顶向下与自底向上相结合的方法构建船舶产业知识图谱的模式图;
(2)根据步骤(1)构建的模式图进行知识获取,从互联网中的不同数据源获取所需船舶产业的实体数据和关系数据,并在此基础上根据模式图中定义的关系类别进一步获取实体间的链接;
(3)将步骤(2)中获取的实体数据和关系数据进行知识融合,对数据进行实体对齐、实体消歧和数据分类;
(4)将步骤(3)中知识融合后的数据进行知识存储,先将数据存入关系数据库形成基本的知识库,再将结构化的关系数据库数据转化成知识图谱中的链接数据以形成船舶产业知识图谱;
(5)基于步骤(4)构建的船舶产业知识图谱,从区域产业布局、企业社区发现和焦点企业发现三个方面分析船舶产业结构,并基于分析结果更新步骤(1)构建的模式图中预定义的实体以及实体之间的关系。
2.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(1)中所述的构建船舶产业知识图谱的模式图的方法和内容如下:根据船舶产业要素对船舶企业类型进行划分,定义实体与关系;将船舶企业实体定义为船舶造修与海工装备、动力装备与机电设备、信息控制与生产性现代服务三类;将华北、东北、华东、华中、华南、西南和西北七大区域作为实体节点归入模式定义中;将船舶产业图谱模式图中企业与企业间的关系定义为四种:控股关系、投资关系、供应关系和中标关系,将企业与区域之间的关系定义为所属关系。
3.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(1)中,所述的自顶向下是指预先搭建模式图,为后续从不同数据源获取数据提供范式;所述的自底向上是指根据步骤(5)中的分析结果对模式图进行更新改进。
4.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(2)中,所述的互联网中的不同数据源是指天眼查、企查查、中国船舶集团有限公司官网和中船集团物资采购信息化平台的数据;所述的船舶产业的实体数据为中国船舶集团有限公司及其拥有的科研院所和企业单位的实体属性信息和数据,包含企业详情页面的企业名称、注册地址、实缴资本、经营范围、人员规模;所述的船舶产业的关系数据为企业与企业间的控股关系属性,是指持股比例;投资关系属性,包含投资金额及投资比例;供应关系属性,是指供应金额;中标关系属性,包含中标时间及中标项目。
5.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(3)中,所述的实体对齐是指对来自不同数据源提取的企业信息,按照船舶企业的名称对每个企业给定一个唯一标识的非空字符串,作为企业编号;
所述的实体消歧是指采取人工核对的方法进行消歧,对同一实体的不同指称进行统一,得到无歧义的实体信息;
所述的数据分类是指按照权利要求2所述的模式图定义的船舶企业实体分类原则,由领域专家将所采集的船舶企业数据分为三类。
6.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(4)中所述的将结构化的关系数据库数据转化成知识图谱中的链接数据的方法和内容如下:
将关系数据库中的数据表映射到步骤(1)构建的模式图上,即将实体抽象为节点,实体间的关系抽象为边,实体与关系的属性则抽象成节点和边的属性,将关系数据库中的实体表和关系表相关的字段转换为资源描述框架(RDF)格式,处理后包含“<实体,属性,属性值>”、“<实体,关系,实体>”、“<关系,属性,属性值>”三种格式的三元组数据,并将处理完成的三元组数据存入图数据库形成船舶产业知识图谱。
7.根据权利要求1所述的一种船舶产业知识图谱构建与分析方法,其特征在于,步骤(5)中,所述的区域产业布局分析是指选取船舶产业知识图谱中的华北、华东和华南的节点关联信息,使用Cypher语句进行检索并分析;
所述的企业社区发现是指利用Louvain算法,对船舶产业中的企业进行划分,根据划分结果,对处于同一社区的企业利用Cypher语句进行节点以及关系查询;
所述的焦点企业发现包含权威节点分析和创新驱动节点分析,其中,所述的权威节点分析是利用特征向量中心性指标定位船舶产业中的权威企业;所述的创新驱动节点分析是利用中介中心性指标描述产业内企业的创新驱动能力。