1.一种通用字符串相似性度量框架的构建方法,其特征在于,具体过程如下:(1)设定X={x0,x1,x2,...}和Y={y0,y1,y2,...}为需要比较的两个字符串总体,X和Y中的元素xi和yj由字符序列 和 组成,其中 和 分别是xi和yj中的第p和第q个字符,m和n是xi和yj的长度;
(2)将匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}与不匹配集合N={(xi,yj);
xi≠yj,xi∈X,yj∈Y}组成一组字符串X×Y={(xi,yj);xi∈X,yj∈Y};
(3)基于匹配或相似的集合M={(xi,yj);xi=yj,xi∈X,yj∈Y}和不匹配集合N={(xi,yj);xi≠yj,xi∈X,yj∈Y},为每个字符串相似性度量定义一个用于比较的标准集合γ(xi,yj),γ(xi,yj)={γ1(xi,yj),γ2(xi,yj),...,γK(xi,yj)},其中γk(xi,yj)是xi和yj之间的第k个特定比较条件;
i j i j
(4)得到后验概率P((x ,y)∈M|γ(x ,y))即字符串相似性度量的实际或准确结果后,再基于最大似然估计方法,使用P(γ(xi,yj)|(xi,yj)∈M)来估计后验概率,即:Sim(xi,yj)=P((xi,yj)∈M|γ(xi,yj))∝P(γ(xi,yj)|(xi,yj)∈M)
设定γ(xi,yj)中的比较标准是 对于具体的比较标
i j i j i j
准集合γ(x ,y),不匹配条件包含错误UM,该不匹配条件与概率P((x ,y)∈M|γ(x ,y))字符串相似性度量定义相关联,匹配或相似的比较条件排除错误M,该匹配或相似的比较条件也与概率P((xi,yj)∈M|γ(xi,yj))字符串相似性度量定义相关联,对于Sim(xi,yj)需要移除UM并添加M,将概率函数需要修改为:其中 是常用字符串相似性度量的概率形式,M-UM是修正误差
的调整因子,并且M-UM趋于α·(1-Sim(xi,yj)),其中α∈[0,1];
(5)最后得到一个结合附加特征的字符串相似性度量框架:
Sim(xi,yj)=Simgen(xi,yj)+α·(1-Simgen(xi,yj))。
2.如权利要求1所述的通用字符串相似性度量框架的构建方法,其特征在于:所述步骤(3)中的γk(xi,yj)可表示Dice距离中xi和yj中的共同字符,也可表示在Levenshtein距离和Jaro距离中变换xi到yj的最小成本删除操作,还可表示在Monge-Elkan距离中的xi和yj的共同前缀。
3.如权利要求1所述的通用字符串相似性度量框架的构建方法,其特征在于:所述步骤(5)中为了包含词缀信息到字符串相似度度量中,可修改α为其中lp和ls分别是xi和yj中的相同前缀和后缀的长度;|xi|和|yj|分别是xi和yj的长度,当xi和yj有相同的前缀和/或相同的后缀时,ω∈[0,1]是决定向上调整多少相似度的常数比例因子;β∈[0,1]和η∈[0,1]分别是前缀特征和后缀特征的权重。