利索能及
我要发布
收藏
专利号: 2020102354631
申请人: 湖南工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种位置编码单次随机置换哈希度量文档相似度的方法,其特征在于,包括如下步骤:S1、初步提取文本特征,生成单次随机置换哈希集合Ox;

S1.1:对文档x进行分词、滤噪得到分词集合Sx;

S1.2:采用Rabin函数对Sx进行映射得新集合SxD,对集合SxD进行一次随机置换,生成集合π(SxD);

S1.3:π(SxD)在全集Ω上生成的哈希值为SxR;

S1.4:对SxR进行压缩编码,得到Ox;

S2、进一步提取文本特征,生成单次随机置换的位置编码哈希集合Px:遍历S1中集合Ox中的非空区,将非空区的序号作为key,哈希值作为value,混合编码生成结构为<k,v>的键值对,形成集合Px;

S3、相似性度量:遍历Pa、Pb中所有键值对,根据相似度 比较两文档a、b的相似度;

其中,所述全集Ω均匀划分成k个区域,所有区域的大小相等且为m,对每个区域从1到k进行编号,全集Ω中每个区域生成一个哈希值:若某区域不存在非零元素,该区域为空区,其哈希值为“*”;若某区域存在非零元素,该区域为非空区,将区域中最小非零元素作为该区域的哈希值;空区与非空区的哈希值集合形成SxR,下标x表示任意文档,Pa、Pb分别是文档a、b通过S2的方法生成的键值对<k,v>集合,Nemp为集合Oa、Ob中同时为空区的数量,Nmat表示集合Oa、Ob中不为空且哈希值相等的数量,k为集合Oa、Ob中总区域数量较大的除结束位的集合区域数。

2.根据权利要求1所述的度量文档相似度的方法,其特征在于,所述S1.2中SxD进行的随机置换满足:数据集Y中的任意一个元素y在随机置换π下都有相同的概率是这个数据集置换后的最小值,即 其中,数据集Y∈Ω且y∈Y,π为一个随机minwise排列。

3.根据权利要求1所述的度量文档相似度的方法,其特征在于,所述S1.4中的压缩编码过程采用编码压缩函数f(hash)=hashmodm,其中,mod为取模函数,m为全集Ω的区域大小,对SxR中的每一个哈希值运用压缩编码函数后生成集合Ox。

4.根据权利要求1所述的度量文档相似度的方法,其特征在于,所述S3中相似性度量方法的步骤为:S3.1:令Nmat=0,Nemp=0,i=1,从头开始分别读取Pa、Pb中非空区域的键值对,minindex为集合Pa与Pb中当前较小key值;

S3.2:当读取的Pa中非空区域序号与Pb中非空区域序号不相等时,Nemp=Nemp+minindex‑i,Nmat不变,当前Pa与Pb中较大区域序号的键值对继续与区域序号较小的集合中下一非空区域键值对进行比较;

S3.2.1:i=minindex+1,minindex变为集合Pa与Pb中当前较小key值,当读取的Pa中非空区域序号与Pb中非空区域序号不相等时,Nemp=Nemp+minindex‑i,Nmat不变,否则,进入步骤S3.3;

S3.3:当读取的Pa中非空区域序号与Pb中非空区域序号相等时,i=minindex+1,minindex变为集合Pa与Pb中当前较小key值,若两键值对中value相等,Nmat=Nmat+1,Nemp不变,否则,进入步骤S3.3.1;

S3.3.1:若两键值对中value不相等,Nemp=Nemp+minindex‑i,Nmat不变,继续读取Pa、Pb中下一非空区域的键值对,i=minindex+1,minindex变为集合Pa与Pb中当前较小key值,进入步骤S3.4;

S3.4:若遍历Pa、Pb中所有键值对至结束位,则停止对比,否则进入步骤S3.2。