1.一种基于改进WMD算法的实体对齐方法,其特征在于包括如下步骤:步骤(1)计算百科实体之间的属性相似度;
步骤(2)计算百科实体间的摘要文本相似度;
步骤(3)通过属性相似度和摘要文本相似度综合判断实体是否能够消岐。
2.根据权利要求1所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤1所述的计算百科实体之间的属性相似度,过程如下:
1.1统一属性的名称,采用人工构建属性映射规则的方法,通过人工对比校验,构建多个类别的属性名映射表,进而规范属性名称不一致的情况;
1.2统一属性的属性值,通过统计分析,建立属性值归一化规则,对属性值进行归一化;
1.3对于实体Ea,Eb,其属性名称集合分别为:Propertya={pa1,pa2,…,pam},Propertyb={pb1,pb2,…,pbn};属性值集合分别为Valuea={va1,va2,…,vam},Valueb={vb1,vb2,…,vbn};
1.4对于公有属性Pi∈CommonPropertty(Ea,Eb),对应着相同属性名称的Pam∈Propertya,Pbn∈Propertyb;其中Pam的属性值为Vam,Pbn的属性值为Vbn,则百科实体的属性相似度计算公式为:其中:
T=|Propretya∩Propretyb|;
T为公共属性交集中的元素个数,ED(Vax,Vby)为实体属性值的编辑距离,max{len(Vax),len(Vby)}为属性值的最大字符长度。
3.根据权利要求2所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤2所述的计算百科实体之间摘要文本相似度的步骤如下:
2.1采用TextRank算法对百科实体的摘要文本计算词权重,其单个词权重WS(Vi)计算公式为:其中,In(Vi)代表指向该词Vi的集合,Out(Vj)代表Vi指向的词集合,d为阻尼系数,一般设置为0.85;sij为词Vi到Vj边的权重,sjk为词Vj到Vk边的权重;
2.2通过预训练好的word2vec模型,将分词后的百科实体的摘要文本转化为词的分布式低维实数向量表示,将一个词的语义转化为另外一个词的语义的代价定义为Word travel cost,词Vi,Vj之间的word travel cost定义为:C(i,j)=||xi-xj||2
其中,xi,xj分别对应词Vi,Vj所对应的Word2Vec词向量;
2.3在计算文档D0,D1的距离时,WMD会尝试寻找最小的代价将D0中的所有单词转化为D1中的单词;D0中的词Vi的权重为WS(Vi),D1中的词Vj的权重为WS(Vj),且Vi,Vj∈{V0,V1…Vn};
设T∈Rn×n为低维系数矩阵,其中Tij为词语Vi到词语Vj的转移量,则WMD的优化表达式为:其中:
2.4通过以上计算,百科实体的摘要文本相似度计算公式为:
4.根据权利要求3所述的一种基于改进WMD算法的实体对齐方法,其特征在于步骤3通过属性相似度和摘要文本相似度综合判断的步骤如下包括:
3.1将计算得出的属性相似度和预设定的实体属性相似度上限阈值ν和下限阈值ω进行比较,如大于等于上限阈值ν,则对齐实体,输出新的实体;若相似度在在上限阈值ν和下限阈值ω之间或等于下限阈值ω,则转向步骤3.2;否则认为该实体对之间不需要对齐工作;
3.2将摘要文本相似度和预设定的摘要文本相似度阈值λ进行比较,若大于等于阈值λ,则对齐实体,输出新的实体;否则判定这两个实体无关。