欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2017107077366
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Wikipedia概念向量的中文词语相关度计算方法,在特征在于,该方法包括以下步骤:

步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;具体为:步骤1‑1)访问Wikipedia Dump服务站点,下载最新的zhwiki数据库;

步骤1‑2)根据zhwiki数据库依次处理节点,提取ns的值为0的节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用标记段落标题;其中,#n={1,2,

3...n},代表文档标题的层级,从1到n表示由高到低;

步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;具体为:

步骤2‑1)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充,具体为:

将基础语料库中的某一篇文档记作docl,其标题记作titlel,标识记作idl;该篇文档中的某一概念标记的热点文本记作linkl,k,目标概念记作targetl,k;docl中未加概念标记的词语记作wl,i;

步骤2‑1‑1)在docl中,收集(#n=1,2,…,n)标签中的词语,作为docl的子标题集合,记作 遍历 中的元素,若headl,i=titlel,则将原文中headl,i左右加上三个中括号的概念标记,变为:[[[headl,i]]];

步骤2‑1‑2)在docl中,收集所有概念标记信息,构建概念标记集合,记作按照每个元素中link

所包含的词语数量降序排列;

步骤2‑1‑3)遍历 若在docl中存在wl,j=linkl,i,则将wl,j左右添加三个中括号的概念标记,变为:[[[wl,j]]];

步骤2‑2)根据最大频率词义算法,对步骤2‑1)处理过的基础语料库做进一步的概念标记扩充,具体为:

收集经过步骤2‑1)扩充概念的基础语料库中的概念标记信息元组,构建概念标记集合,记作:

概念标记信息元组包含热点文本(linki)、目标概念集合(Ti)、热点文本的数量与热点文本一致但未加概念标记的词语的数量 统计每个概念标记的目标概念和及其数量得到目标概念元组集合,记作:Ti={(targeti,1,numi,1),(targeti,2,numi,2),...,(targeti,n,numi,n)};语料库中未加概念标记的词语记作wk;

步骤2‑2‑1)遍历LS,按照公式(1)计算词语的概念标注概率Pl(linki);保留结果大于

50%的linki生成高频概念标注集合,记为LSH;

步骤2‑2‑2)遍历LSH,依次对linki中Ti的每个元素按照公式(2)计算目标概念的标注概率Pt(targeti,j);保留标注概率大于90%的目标概念(target),生成高频目标概念集合,记为LSHC={(linki,targeti,j),...},将集合的各个元素按照linki中含有的词语数降序排列;

步骤2‑2‑3)遍历LSHC,若存在wk=linki,则将wk左右添加五个中括号的概念标记,变为:[[[[[wk]]]]];

步骤三、根据Wikipedia概念语料库,训练概念向量;

步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;

步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。

2.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤三中,训练概念向量时,具体为:步骤3‑1)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;

步骤3‑2)使用概念语料库训练概念向量。

3.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤四中,获取待比较词语对的概念集合时,具体为:步骤4‑1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;

步骤4‑2)由用户指定概念获取层次,构建概念集合;

需要说明的是,用户可指定的层次如下所示:a)Normal:只查找正常页面的Title;否则,返回None;

b)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;

c)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;

d)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;

e)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;

f)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;

其中的符号释义说明如下:

Title:当wi所对应的Wikipedia页是一个正常页面且非消歧页非重定向页时,其对应概念就是Title;

RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;

DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念,且不计与Title重复的;

HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的部分中,非歧义的热点文本;

HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的部分中,有歧义的热点文本;

HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念,且不计与Title重复的。

4.根据权利要求1所述的基于Wikipedia概念向量的中文词语相关度计算方法,其特征在于,所述步骤五中,计算各个概念对的概念向量相似度并选取最大值作为词语相关度时,具体为:

步骤5‑1)待比较词语对为(w1,w2),w1的概念集合 和w2的概念集合 根据步骤三得到的概念向量文件,查询 和 中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;

步骤5‑2)根据步骤5‑1)处理过的 和 计算它们的笛卡尔积得待计算概念集合,记作

步骤5‑3)由步骤5‑1)和步骤5‑2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;

其中 和 表示概念ci和cj的概念向量, 和 表示向量 和 的模;

步骤5‑4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。

5.一种基于Wikipedia概念向量的中文词语相关度计算装置,其特征在于,该装置包括Wikipedia基础语料库构建单元、Wikipedia概念语料库构建单元、概念向量训练单元、概念集合提取单元、词语相关度计算单元,分别实现权利要求1‑4任意一项所述的一种基于Wikipedia概念向量的中文词语相关度计算方法的步骤一、步骤二、步骤三、步骤四和步骤五。