买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种通用字符串相似性度量框架的构建方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种通用字符串相似性度量框架的构建方法

面议

专利号： 2018110108044

申请人：成都信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种通用字符串相似性度量框架的构建方法，其特征在于，具体过程如下：

0 1 2

(1)设定X＝{x ,x ,x ,...}和为需要比较的两个字符串总体，X和Y中的元素xi和yj由字符序列和组成，其中和分别是xi和yj中的第p和第q个字符，m和n是xi和yj的长度；

(2)将匹配或相似的集合M＝{(xi,yj)；xi＝yj,xi∈X,yj∈Y}与不匹配集合N＝{(xi,yj)；

xi≠yj,xi∈X,yj∈Y}组成的一组字符串X×Y＝{(xi,yj)；xi∈X,yj∈Y}；

(3)基于匹配或相似的集合M＝{(xi,yj)；xi＝yj,xi∈X,yj∈Y}和不匹配集合N＝{(xi,yj)；xi≠yj,xi∈X,yj∈Y}，为每个字符串相似性度量定义一个用于比较的标准集合γ(xi,yj)，γ(xi,yj)＝{γ1(xi,yj),γ2(xi,yj),...,γK(xi,yj)},，其中γk(xi,yj)是xi和yj之间的第k个特定比较条件；

(4)得到后验概率P((xi,yj)∈M|γ(xi,yj))即字符串相似性度量的实际或准确结果后，再基于最大似然估计方法，使用P(γ(xi,yj)|(xi,yj)∈M)来估计后验概率，即：Sim(xi,yj)＝P((xi,yj)∈M|γ(xi,yj))∝P(γ(xi,yj)|(xi,yj)∈M)

设定γ(xi,yj)中的比较标准是i.i.d.，进一步得对

于具体的比较标准集合γ(xi,yj)，不匹配条件包含错误UM与概率P((xi,yj)∈M|γ(xi,yj))字符串相似性度量定义相关联，匹配或相似的比较条件排除错误M也与概率P((xi,yj)∈M|γ(xi,yj))字符串相似性度量定义相关联，对于Sim(xi,yj)需要移除UM并添加M，将概率函数需要修改为：其中是常用字符串相似性度量的概率形式，M-UM是修正误差

的调整因子，并且M-UM趋于α·(1-Sim(xi,yj))，其中α∈[0,1]；

(5)最后得到一个结合附加特征的字符串相似性度量框架：

2.如权利要求1所述的通用字符串相似性度量框架的构建方法，其特征在于：所述步骤(3)中的γk(xi,yj)可表示Dice距离中xi和yj中的共同字符，也可表示在Levenshtein距离和Jaro距离中变换xi到yj的最小成本删除操作，还可表示在Monge-Elkan距离中的xi和yj的共同前缀。

3.如权利要求1所述的通用字符串相似性度量框架的构建方法，其特征在于：所述步骤(5)中为了包含词缀信息到字符串相似度度量中，可修改α为i j i j i j i

其中lp和ls分别是x 和y中的相同前缀和后缀的长度；|x |和|y|分别是x和y的长度，当x和yj有相同的前缀和/或相同的后缀时，ω∈[0,1]是决定向上调整多少相似度的常数比例因子；β∈[0,1]和η∈[0,1]分别是前缀特征和后缀特征的权重。