1.一种基于偏序格的大型语义图近似摘要方法,其特征在于:该方法包括以下步骤:S1:对大型语义图按照关系类型的丰富程度进行分类,分为:I型,即丰富关系型语义图和II型,即简单关系型语义图;
语义图分类步骤,具体如下:
S11:首先,提取大型语义图的实体数量|V|及关系类型数量 具体为:解析语义图的RDF文件,将语义图导入相应的数据库,包括图数据库和语义数据库,利用数据库查询语言获取;
S12:其次,按公式(1)计算关系指标δ;
语义图由语义数据RDF三元组构成,将语义图定义为 其中V是实体的集合,R是实体之间的关系集合, 是关系类型,即对象属性集合, 是属性,即数据类型属性集合, 是关系到关系类型的映射, 是实体到属性集合的映射;将语义图的中实体的属性视为仅关联该实体的性质,而不是实体与属性值之间的关系;
定义关系类型指标δ:
来衡量语义图中的关系的丰富程度;其中,δ越大则语义图的关系类型越丰富;反之,关系类型越简单;
S13:将关系指标δ与设定的指标阈值δT比较大小关系;根据现有大型语义图的情况,将‑4δT默认值设定为10 ;用户根据所处理的语义图的具体情况进行设定;
S14:最后根据δ与δT的大小,得出语义图类型:当δ<δT时,语义图为I型语义图;当δ≥δT时,语义图为II型语义图;
S2:对于I型语义图,使用算法1根据其特征计算基于偏序格的近似摘要,进而利用算法
3计算摘要的信息度,即:覆盖原语义图的比率;
S3:对于II型语义图,使用算法2根据其特征计算基于偏序格的近似摘要,进而利用算法4计算摘要的信息度,即:原语义图实体的过滤比率;
S4:生成语义图的偏序格摘要结果;
算法1给出了计算于偏序格的I型语义图近似摘要ELSRR的步骤;该算法的输入是语义图G,关键类型集合Rt*,参数σ及语义图类型,输出是基于偏序格的I型语义图近似摘要σL;
S21:对实体模式集合进行初始化;
S22:针对每个语义图中的实体s,若其关联了关键关系类型,则将该实体s及其关联的所有关系类型加入σC中;
S23:合并具有相同特征集合CS的实体,并且按照特征集合CS的基数对实体模式EP进行分层;CS_Tk存放第k层的实体模式EP,即:所有在第k层的实体模式EP均满足:所有实体的特征集合的基数|T|=k;m表示所有特征集合CS的最大值;
S24:根据各层的实体模式CS_T生成偏序格σL;
S25:返回偏序格σL;
算法2是给出计算于偏序格的II型语义图近似摘要ELSSR的步骤;该算法的输入是语义图G,关键类型集合Rt*,p*的阈值μ(p*),及语义图类型,输出是基于偏序格的II型语义图近似摘要μL;
S31:对实体模式集合进行初始化;
S32:针对每个语义图中的实体s,若该实体s关联了关键关系类型p*,则检查其关联的相应边集合|Ep*|与设定的阈值μ(p*)的关系,若|Ep*|≥μ(p*),则将该实体s及其关联的所有关系类型加入μC中;
S33:合并具有相同特征集合CS的实体,并且按照特征集合CS的基数对实体模式EP进行分层;CS_Tk存放第k层的实体模式EP,即:所有在第k层的实体模式EP均满足,所有实体的特征集合的基数|T|=k;m表示所有特征集合CS的最大值;
S34:根据各层的实体模式CS_T生成偏序格μL;
S35:返回偏序格μL;
算法3是ELSRR信息度计算方法;具体步骤如下:S41:初始化相应变量Iσ,Vb,Vσ,VN,Rb;
S42:计算σL的基图Gb;
S43:根据公式(2)计算信息度Iσ;
定义6ELSRR的信息度:给定语义图 关键关系类型集合Rt*,以及该语义图的ELSRR摘要σL=(σC,≤),ELSSR的信息度定义为:其中,Vb和Rb是基图的实体集合与关系集合,V和R是语义图的实体集合与关系集合;
S44:返回信息度Iσ;
算法4是ELSSR信息度计算方法;具体步骤如下:S51:初始化相应变量Iμ,Vb,Vσ,VN,Rb;
S52:计算μL的实体数量;
S53:根据公式(3)计算信息度Iμ;
定义7ELSSR的信息度:给定语义图 关键关系类型集合Rt*及其阈值μ(Rt*),该语义图的ELSSR摘要μL=(μC,≤),ELSSR的信息度定义为:其中Vμ为μC所包含的所有实体集合;
S54:返回信息度Iμ。
2.根据权利要求1所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S2具体为:定义1实体模式:给定语义图G,设 为实体中所有三元组(s,p,o)中主语s的集合;
对任意 为实体s的特征集合;一个实体模式EP定义为c=(S,T,A),其中:(i) (ii) CS(s)=T;(iii)A=∪s∈SLA(s);
设C为所有实体模式的集合,则 形成一个偏序集;若设定2个特殊的实体模式和 则 形成一个偏序格;
定义2关键关系类型:给定语义图G,若关系类型的子集: 是该语义图被检索最频繁的前σ%个关系类型,其中 则称Rt*为关键关系类型集合,Rt*中的元素为关键关系类型;
设定σ值为20;
定义3基于偏序格的I型语义图近似摘要:给定语义图G及关键关系类型集合Rt*,基于偏序格的I型语义图近似摘要定义为由偏序集(σC,≤)所形成的格σL,其中σC是实体模式集合且每个实体模式至少包含一个关键关系类型,即:
3.根据权利要求2所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S3具体为:定义4基于偏序格的II型语义图近似摘要:给定语义图G及关键关系类型集合基于偏序格的II型语义图近似摘要定义为由偏序集(μC,≤)所形成的格μL,其中: 有|Ep*|≥μ(p*),Ep*是具有关系类型为p*的边集合,μ(p*)为p*的阈值;
设定μ(p*)=2,过滤至少50%与p*相关的实体;μ(p*)由用户自行设定,且不同的关键关系类型p*设定不同的阈值,以实现对规定实体进行过滤。
4.根据权利要求3所述的一种基于偏序格的大型语义图近似摘要方法,其特征在于:所述S4具体为:定义5ELSRR的基图:给定语义图 关键关系类型集合Rt*,以及该语义图的ELSRR摘要σL=(σC,≤),G的基图定义为: 是语义图G的子图满足:
(1)Vb=Vσ∪VN, 其中VN包含Vσ中所有节点的邻接节点;
(2)Rb={(u,v)|u∈Vσor v∈Vσ};
(3)
(4)
(5) 是一个映射,将Rb中的关系映射为语义图中的关系类型;
(6) 是一个映射,将Vb中的实体映射到语义图中的属性集合;
ELSRR的基图就是摘要所覆盖的原语义图的子图。
5.一种基于偏序格的大型语义图近似摘要系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1~4任一项所述的方法。
6.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~4任一项所述的方法。