1.一种基于本体的关联数据质量评估方法,其特征在于包括如下步骤:步骤一:进行关联数据质量评估数学模型定义关联数据质量通过多个质量维度进行描述,包括链接有效性、语义关联性、句法准确性、数据实体准确性,通过对这些数据质量维度的评估达到对关联数据的数据质量评估的目的;
LDQAM评估的数学模型定义:
定义1:任何关联数据质量评估都形式化为一个七元组:Spvard
Dom-领域,评估的关联数据隶属的领域;
S-关联数据集,
P-关联数据的属性集,
V-关联数据的数据集实例,即属性值,
A-关联数据评估中用到的算法集,
D-关联数据评估维度,
R-关联数据评估规则集;
定义2:关联数据集:关联数据中的所有实体都有一个唯一的URI,通过网络上的Http协议用URI定位并找到相应数据,根据关联数据共享权限,实例集用URI和所属数据领域进行描述:S=
其中URI表示的是关联数据集中各个实例的链接的集合,Dom标识的是该关联数据集所属的领域;
定义3:关联数据的属性集:关联数据中的数据能够形成关联的必要因素就是属性,这些属性的集合即为关联数据的属性集,不同的实例只有通过属性的链接才能形成相应的关联性:P=
定义4:关联数据的数据项:关联数据的作用是将数据关联在一起,数据项是关联数据中属性值的集合:V=
其中Value表示的属性的集合,Weight表示属性的在评估中的权重,定义5:关联数据评估算法集:由评估算法所构成的集合;
A={algi|Define(algi),1≤i≤n}其中Define(algi)是对评估算法的定义;
定义6:规则集合:每个评估维度所包含规则的集合,描述如下:R=
其中的i=1,2,……,n,j=1,2,....,m,在同一个维度可以有多个规则。
Ruleij表示在维度i上的第j个规则;
步骤二:进行LDQAM数学模型向本体模型的映射将本体形式化为五元组O=
1:关联数据集到本体实例的映射;
2:维度到本体类的映射;
3:属性集到本体属性的映射;
4:规则集到公理的映射;
5:数据集到属性实例的映射;
6:算法集到本体类的映射。
映射规则如下:
(1)关联数集S的映射
关联数据集是指需要进行评估的数据集链接的集合;关联数据集到本体实例的映射主要是对本体类实例进行映射,映射过程如下:其中,IUname表示以链接命名的本体实例;
(2)维度到本体类的映射
维度集是指评估维度的集合,通常映射成本体中的类,映射过程如下:其中,Cdim表示以维度名字命名的本体类;
(3)属性集到本体属性的映射
属性集即实体属性的集合,关联数据属性映射成本体属性,映射过程如下:其中,Property有分为DataProperty和ElementProperty两种,具体分类原则是根据predicate后面所接的Value值所决定的,当Value为另一对象是Property为ElementProperty,否则为DataProperty;
(4)数据集到属性实例
实例集是指数据集记录实例的集合,映射成本体类的实例或本体属性实例,映射过程如下:(5)算法集到本体类的映射
算法集是数据质量评估算法的集合,映射成以算法名称命名的本体类,映射过程如下:规则集中包含的是与评估维度相对应的规则,对于选定评估维度的数据集,制定评估维度对应的评估规则;在规则集中,规则分为数据项约束规则、类约束规则和语义约束规则;根据制定的映射规则,将关联数据质量数学模型转化为本体;
步骤三:约束规则与推理规则制定
关联数据质量评估约束规则
每个关联数据质量问题都件建立在数据的属性、属性值上面,属性分为数据属性和对象属性;关联数据质量评估约束规则通过对相应的属性和属性值进行分析,然后制定相应的约束规则;
关联数据推理规则
选择基于关联数据质量本体的SWRL规则推理,解决效率低问题,实现自动化功能,通过SWRL规则实现了关联数据属性与关联数据质量约束规则之间关系的推理,关联数据质量约束规则与任务之间的推理,通过推理结果实现关联数据质量约束规则与任务名称之间关系推理;
规则1:如果存在URI X,如果一个链接含有Http前缀Y,当一个实例同时存在上述条件,则该实例可被访问。【TestedClass(?x)∧URIPrefix(?y)→AvailableURI(?x,?y)】规则2:根据关联数据URI的特点,制定数据集与数据集属性之间的关系,如果数据集X存在必要属性HasURI Z,数据集属性Y存在必要属性HasURI A,并且A是以Z作为前缀,那么数据集属性Y是数据集X的属性;
【TestedClass(?x)∧TestedProperty(?y)∧hasURI(?x,?z)∧hasURI(?y,?a)∧swrlb:startsWith(?a,?z)→hasProperties(?x,?y)】;
步骤四:关联书质量评估原型系统搭建:
验证本体描述的关联数据质量约束规则,并依据质量约束规则实施对数据集中的某个属性的质量检测;
步骤五:进行数据评估服务
(1)确定评估领域,对必须的领域特有规则进行添加;
(2)根据相关数据集URI进行数据遍历,获取该关联数据集中所有实例的URI,并验证关联数据质量中链接有效性、可用性;
(3)根据遍历得到的URI集进行关联数据属性的评估,对于数据项相关方面进行评估;
(4)将利用相关规则评估得到的问题数据进行提取和存储,并给出最终评估结果;
(5)分析用户对评估结果的满意度,对方法的相关设定进行调整,即用户反馈再生产模式,最终得到标准评估方法及评估结果,便于进行数据清洗。