利索能及
我要发布
收藏
专利号: 2019112355178
申请人: 电子科技大学广东电子信息工程研究院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于概率软逻辑模型的实体解析方法,其特征在于,包括以下步骤:

a、将实体解析中的实体属性、实体关系以及本体约束分别进行逻辑谓词表示;

b、分别基于实体属性、实体关系以及本体约束构建实体解析过程中的一阶逻辑规则;

c、结合步骤a中声明的逻辑谓词与步骤b中构建的逻辑规则设置一个关于实体解析的概率软逻辑模型;

d、对概率软逻辑模型进行权重学习;

e、使用推理算法对概率软逻辑模型进行计算,通过实体解析概率值;

另外,在对实体属性进行逻辑谓词表示过程中,由于判断多个实体是否指向同一个实体过程中,不需要利用实体所有属性进行判定,可以通过选取出能够唯一标识这些实体的属性,作为实体解析过程中重要属性进行比较,根据数据集每个实体属性对实体解析的结果影响,即不同属性在实体解析过程占用权重不同,将实体属性划分成重要属性和一般属性,并根据公式(100)计算得到将实体名字作为实体的重要属性,其余属性则作为一般属性,其中,PF表示实体属性在所有实体中出现的频率, 表示实体属性i出现的频率,N表示实体个数,OSF表示区分度,相同实体属性值越少,OSF越大,说明该属性具有很好的区分性,表示实体属性i出现相同频数;

基于实体属性构建的逻辑规则为:

其中,逻辑规则(b1)表示当实体A和B具有相同名字时,A和B可能表示同一个实体,Wn表示该逻辑规则权重;

逻辑规则(b2)表示当实体A和实体B同属一个类别且具有相似名字时,A和B可能表示同一个实体,Wt表示该逻辑规则权重,Similar(X,Y)表示计算X与Y相似度的相似函数,采用Levenshtein距离作为该相似度函数;

逻辑规则(b3)表示当实体A和实体B具有相同属性以及相似属性值时,A和B可能表示同一个实体,Wp表示该逻辑规则权重,Similar(V1,V2)表示计算V1与V2相似度的相似函数,V1、V2是列表结合类型时采用Jaccard集合相似计算作为该相似度函数,V1、V2是字符串类型时采用Levenshtein距离相似计算作为该相似度函数;

Levenshtein距离是指将字符串a转化成b所用的最少字符串操作数,叫做字符串A到B的编辑距离,编辑距离递推公式如下:在上述的计算公式中,第一行和第二行是初始化过程,表示当a与b长度为0时,字符串a和b的编辑距离计算公式,当b的长度为0时,a通过不断地删除或者添加操作就可以转化成b,编辑距离计算过程就是矩阵d的元素一次次计算,首先对矩阵d的第一行与第一列进行初始化,然后根据公式2.1中第三行公式对其它行列的元素进行计算,根据公式2.1中第三行可知,计算矩阵d中的第(i,j)个元素,需要事先计算出第(i‑1,j‑1)、(i,j‑1)、(i‑1,j)的元素值;

而Jaccard相似度是指集合A与B的交集元素个数所占并集元素个数的比例,采用表示J(A,B),其计算公式为

2.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对实体属性进行逻辑谓词表示包括以下步骤:a11、选取实体名字作为实体的重要属性,其余属性作为一般属性;

a12、重要属性采用属性名作为逻辑谓词,即Name(E,N)表示实体E的名字是N;一般属性采用统一谓词Property()表示,即Property(E,P,V)表示实体E存在属性P且该属性值为V。

3.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对实体关系进行逻辑谓词具体为采用Relation()对实体关系进行谓词表示,即Relation(E1,E2,R),表示实体E1与实体E2之间关系是R。

4.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,对本体约束进行逻辑谓词具体为选取MUT()、DOM()、SUB()作为本体约束,并对本体约束进行谓词表示为Mut(T1,T2)表示实体所属类别不能同时是T1和T2,Sub(T1,T)表示实体的类别T1是T子类,Dom(E,D)表示实体E所属于领域为D。

5.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,基于实体关系构建的逻辑规则为:其中,逻辑规则(b4)表示当实体A和实体B与实体C具有相同关系时,A和B可能表示同一个实体,其中Wr表示该逻辑规则权重;

逻辑规则(b5)表示实体A和实体B是同一个实体且实体A和C关系与实体B和D关系相同时,实体C和D表示同一个实体,Ws表示该逻辑规则权重。

6.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,基于本体约束构建的逻辑规则为:其中,逻辑规则(b6)表示当实体A和B的所属类别不能同时表示同一个实体时,A和B表示不同一个实体,Wm表示该逻辑规则权重;

逻辑规则(b7)表示当实体A和B的类别具有相同父类时,A和B可能表示同一个实体,Wc表示该逻辑规则权重;

逻辑规则(b8)表示当实体A和B的类别具有相同域时,A和B可能表示同一个实体,Wd表示该逻辑规则权重。

7.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,所述关于实体解析的概率软逻辑模型为:其中,R是概率软逻辑模型中逻辑规则集合,λr表示逻辑规则r的权重,Z表示规划因子,d(r)表示逻辑规则r的距离满意度,p=1表示采用一阶逻辑规则。

8.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于,所述步骤d中在对概率软逻辑模型进行权重学习过程中选择最大似然参数估计法,应用梯度函数进行权重参数估计,具体过程如公式(1)所示:其中,Ri表示所有带有权重λi被初始化的逻辑规则,其中p=1,由于计算

*

是NP难问题,因此,采用 近似代替,I表示原子最有可能的正确解释。

9.根据权利要求1中所述的基于概率软逻辑模型的实体解析方法,其特征在于:所述步骤e中所述推理算法为MPE推理算法或边际推理算法。