1.一种面向多语种的通用地名语义相似度计算方法,其特征在于,包括如下步骤:根据语种编码区间确定地名语种,并根据文献信息将地名进行归一化为罗马化地名;
从地名信息库中获取两个地名的类别属性信息,根据地名分类体系及地名类别相似度模型计算地名类别相似度;
根据地名字符串相似度模型计算罗马化后两个地名的字符串相似度;
从地名信息库中获取两个地名的经纬度,然后根据地名空间邻近度模型计算空间邻近度;
根据地名的类别相似度、字符串相似度和空间邻近度确定两个地名的语义相似度;
根据地名分类体系及地名类别相似度模型计算地名类别相似度包括:
如果两地名所属类别位于地名分类体系的同一子类下的类别,则计算共同父类到根节点的距离之和以及最近的共同父类地名类别到两地名类别的距离,然后利用同类别相似模型计算类别相似度;如果两地名所属类别位于不同子类下的类别,则计算两地名类别所在子类的相关度后利用非同类别相似度模型计算类别相似度。
2.根据权利要求1所述的地名语义相似度计算方法,其特征在于,同一子类下的类别相似度模型表示为:其中,Sc(i,j)表示地名i和j的地名类别相似度,l表示地名i和j的类别的最近的共同父类到根节点的距离,di表示地名i和j的类别的最近的共同父类到i的类别的距离,dj表示地名i和j的类别的最近的共同父类到j的类别的距离,α(i,j)表示最近的共同父类到i和j的类别的距离之和。
3.根据权利要求1所述的地名语义相似度计算方法,其特征在于,不同子类下的类别相似度模型表示为:其中,Sc(i,j)表示地名i和j的地名类别相似度,β’表示i和j的类别所在子类的相关度,d’i表示i和j的类别的最近的共同父类到i的类别的距离,d’j表示i和j的类别的最近的共同父类到j的类别的距离;α’(i,j)表示最近的共同父类到i和j的类别的距离之和。
4.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名字符串相似度模型表示为:其中,A(i,j)表示地名i和j的地名字符串相似度,d[i,j]代表地名i和j的编辑距离,ML代表地名i和j字符串长度的最大值,Len代表最小匹配长度,L(i)代表地名i字符串的长度,L(j)代表地名j字符串的长度,a和b表示权重。
5.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名空间邻近度模型表示为:其中,SE(i,j)代表地名i和j的地名空间邻近度,loni,lonj,lati和latj分别为地名i和j的经纬度。
6.根据权利要求1所述的地名语义相似度计算方法,其特征在于,地名语义相似度的计算模型为:F(i,j)=A(i,j)SE(i,j)SC(i,j)
其中,Sc(i,j)表示地名i和j的地名类别相似度,A(i,j)表示地名i和j的地名字符串相似度,SE(i,j)表示地名i和j的地名空间邻近度,F(i,j)表示地名i和j的地名语义相似度。
7.基于地名语义相似度计算的多语种地名数据查询方法,其特征在于,包括如下步骤:通过地名信息库提取所有地名的字符串、类别和经纬度属性,根据语种编码区间确定地名语种和进行地名归一化处理,并依据地名语种的不同特征分为表音型和表意型索引方法,其中表音型文字以字母相似度为基准,结合字母总数、字母部首数、单词总数和单词首字母编码语言特征,基于多维特征统计向量的索引组织方式进行表音型地名索引构建;表意型文字以字符局部相似度为基准,结合地名的相同字符、字符数量和字符位置语言特征,基于单个字的地名索引组织方式进行表意型地名索引构建;
确定待查询的地名的字符串、类别和经纬度属性,并进行归一化处理;
根据待查询地名所确定的字符串、类别和经纬度属性依次对索引中的所有地名进行筛选,得到候选地名;其中依据确定的地名字符串,使用地名字符串相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若字符串为空则直接符合筛选条件;依据确定的地名类别,使用类别相似度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若类别为空则直接符合筛选条件;依据确定的地名经纬度,使用地名空间邻近度模型进行计算,计算结果高于设定阈值时符合筛选条件,否则就过滤该条地名,若经纬度为空则直接符合筛选条件;
依次将待查询地名与所有候选地名采用根据权利要求1‑6任一项所述的面向多语种的通用地名语义相似度计算方法进行计算;
将计算结果进行倒序排列,排序越靠前的地名与待查询地名越相似。