利索能及
我要发布
收藏
专利号: 2021115797223
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2024-10-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于RDF的异构数据集成与查询系统,其特征在于,包括:原始数据层、数据封装层、语义层、数据查询层和应用层,所述原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层,数据封装层将封装后的数据传给语义层,语义层将进行语义处理之后的数据传递给数据查询层,数据查询层将数据传递给应用层,其中,所述原始数据层采用RDF Schema资源描述框架模式对不同数据源进行描述,消除异构数据源的语法异构;采用对数据源中的关系表结构和语义进行分析,消除异构数据源的语义异构;

所述数据封装层包括web服务与数据封装模块;数据封装模块分为查询转换器与结果转换器,查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询;

结果转换器根据不同的子查询得到不同的查询结果,再将查询处理结果进行格式转换,生成RDF数据格式的文件;

所述语义层包括Global Schema和Local Schema、以及两种模式之间的模式映射;其中Global Schema首先构建一个全局本体,其次做全局虚拟视图的语义化描写,最后通过虚拟视图使得在查询过程中不需查询底层异构数据源;其中构建Local Schema的过程即为对异构数据源的语义描述,可通过Turtle对RDF进行序列化,完成模式创建,Turtle文档由一系列指令、三元组语句或空白行组成;

所述数据查询层主要实现对用户请求的处理,包括对请求的优化,对结果的缓存以及对数据源的包装;查询使用语言为SPARQL或SQL所述应用层包括web接口、管理接口和其他接口。

2.根据权利要求1所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述语义层的三元组是一个(主语、谓词、宾语)项的序列,由空格分隔,并在每个三元组之后由’.’结尾,RDF术语有三种类型:RDF URI引用、文字和空白节点;通过RDF根据底层异构数据源数据类型建立相应局部本体以及全局本体,再将其进行模式映射达到互操作,其中模式映射即为Local Schema到Global Schema的映射。

3.根据权利要求2所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述Local Schema到Global Schema的映射通过采用中间映射的方式进行模式映射,即将Local Schema首先映射成用RDF描述的文件,再将这些描述文件映射到Global Schema,前者映射模式为1:1,后者映射模式为n:1,是一种公共数据的描述模型,由Turtle和本体技术描述而成的,该映射方法的中间状态属于数据源的虚拟视图,而非真实存在。

4.根据权利要求1所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述数据查询层包括查询代价优化模块、选择复制模块、查询执行模块、结果缓存模块;其中,查询代价优化模块用于对查询语句进行查询代价的计算并优化成最小代价查询,这一过程可得到查询执行的代价规划文档;所述选择复制模块用于对部分查询数据复制为热点数据;

所述查询执行模块主要负责查询计划的执行,当发出请求经过处理的结果返回至查询执行模块;所述结果缓存模块将热点数据缓存至指定的内存空间,方便后期查询,缩短响应时间,并将查询结果以用户希望的格式返回至应用层。

5.根据权利要求4所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述查询代价优化模块通过SPARQL语句得到预期结果;首先生成SPARQL查询语句;其次对查询语句进行次处理,分析对应数据源的子查询语句;然后通过改进的Cost‑Based Optimization算法对查询语句进行时间代价计算,得到查询执行的代价规划文档。

6.根据权利要求5所述的一种基于RDF的异构数据集成与查询系统,其特征在于,所述采用改进的Cost‑Based Optimization基于成本优化算法需要用到脚本工具Preanalyze;

算法操作如下:

(1)首先生成ANALYZE语句,打开该算法,SET hive.cbo.enable=TRUE;

(2)用/preanalyze.sh‑f分析SPARQL语句,根据底层不同数据库文件,分析不同的数据库查询语句文件,获取统计信息并执行文件;

(3)获得分析文件后,执行/preanalyze.sh‑d语句和/(数据库文件后缀)s‑imy.conf语句。

7.一种基于权利要求1‑6任一项所述系统的异构数据集成与查询方法,其特征在于,包括:以下步骤:

原始数据层采用RDF Schema资源描述框架模式对不同数据源进行描述,消除异构数据源的语法异构;采用对数据源中的关系表结构和语义进行分析,消除异构数据源的语义异构;

查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询;结果转换器根据不同的子查询得到不同的查询结果,再将查询处理结果进行格式转换,生成RDF数据格式的文件;

Global Schema首先构建一个全局本体,其次做全局虚拟视图的语义化描写,最后通过虚拟视图使得在查询过程中不需查询底层异构数据源;其中构建Local Schema的过程即为对异构数据源的语义描述,可通过Turtle对RDF进行序列化,完成模式创建,Turtle文档由一系列指令、三元组语句或空白行组成;

数据查询层实现对用户请求的处理,包括对请求的优化,对结果的缓存以及对数据源的包装;查询使用语言为SPARQL或SQL。