利索能及
我要发布
收藏
专利号: 2014106555066
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图上基于局部敏感哈希的多关键字索引方法,其特征在于:所述方法的图经过聚类后,每个类簇用一个粗粒度的n-gram位串来表征,查询时,根据关键字的粗粒度位串和类簇位图的匹配结果识别候选类簇,包括如下步骤:步骤1:类簇位图表示;

根据图顶点包含的关键字,将所有图映射到一个粗粒度的n-gram空间,如果n-gram空间共有N个不同的n-gram,每个类簇对应一个长度为n的位串,类簇对应的关键字如果包含第i个n-gram,则位串对应的位为1,否则为0,所有类簇的位串构成位图,记为BT;

步骤2:查询位串表示;

根据上述步骤1的n-gram空间,构建多关键字查询位串Q,查询的关键字包含某个n-gram,则查询位串对应的位为1,否则为0;

步骤3:类簇匹配;

如果位图BT中某个位串恰好涵盖查询位串Q中所有为1的位,则该位串的对应类簇是候选类簇。

2.根据权利要求1所述的一种图上基于局部敏感哈希的多关键字索引方法,其特征在于,所述方法的磁盘访问次数独立于关键字个数,减少磁盘I/O;使用所述索引包括如下步骤:步骤1:哈希索引构建;在一个类簇中,给定图的所有关键字组合{CM1,…,CMi,…

1 j m

,CMn},一个关键字组合CMi=(w,…,w,…,w),wj代表关键字,设CMi对应的细粒度n-gram

1 j M j

集合记为NG(CMi)=(g,…,g,…,g),g 是一个细粒度的n-gram;给定一个局部敏感哈希函数族的k个哈希函数{h1,…,hj,…,hk},每个哈希函数hj对应一个哈希表Tj,每个哈希函数hj作用于NG(CMi)的M个n-gram上,计算出哈希值,将CMi对应的图存储到TJ相应桶中;

步骤2:查询关键字匹配;在细粒度的n-gram空间,查询Q的多个关键字表征为NG(Q)

1 j n j

={q,…,q,…,q},q 代表一个细粒度的n-gram,根据步骤1的k个哈希函数{h1,…,hj,…,hk},将Q分别映射到k张哈希表T1,…,Tj,…,Tk上,在冲突的桶上获取匹配图。

3.根据权利要求1所述的一种图上基于局部敏感哈希的多关键字索引方法,其特征在于:所述方法支持图关键字查询,基于粗粒度n-gram,即:n个连续字母构成的字符串的位图索引。

4.根据权利要求1所述的一种图上基于局部敏感哈希的多关键字索引方法,其特征在于:所述方法应用于关联复杂数据,即:链接的Web网页、社会网络、蛋白质交互网络的图结构数据的存储和查询。