利索能及
我要发布
收藏
专利号: 2017107085771
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-04-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Wikipedia概念向量的英文词语相关度计算方法,在特征在于,该方法包括以下步骤:步骤一、由Wikipedia Dump服务站点获取其Dump生语料;并对生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;

步骤二、对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;

步骤三、根据Wikipedia概念语料库,训练概念向量;

步骤四、对于待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;

步骤五、取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。

2.根据权利要求1所述的基于Wikipedia概念向量的英文词语相关度计算方法,其特征在于,所述步骤一中,构建Wikipedia基础语料库时,具体为:步骤1-1)访问Wikipedia Dump服务站点,下载最新的enwiki数据库;

步骤1-2)根据enwiki数据库依次处理节点,提取ns的值为0的节点,提取该节点中的title、redirect、id和text的内容,同时对text做如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用标记段落标题;其中,#n={1,2,

3...n},代表文档标题的层级,从1到n表示由高到低。

3.根据权利要求1所述的基于Wikipedia概念向量的英文词语相关度计算方法,其特征在于,所述步骤二中,构建Wikipedia概念语料库时,具体为:步骤2-1)对Wikipedia基础语料库进行词形还原;

步骤2-2)根据one sense per discourse假设,对基础语料库中的每篇文档进行概念标记扩充;

步骤2-3)根据最大频率词义算法,对步骤2-2)处理过的基础语料库做进一步的概念标记扩充。

4.根据权利要求1所述的基于Wikipedia概念向量的英文词语相关度计算方法,其特征在于,所述步骤三中,训练概念向量时,具体为:步骤3-1)对Wikipedia概念语料库进行处理,除去概念标记内词语的lemma信息,其他词语的token信息;

步骤3-2)依次对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;

步骤3-3)使用概念语料库训练概念向量。

5.根据权利要求1所述的基于Wikipedia概念向量的英文词语相关度计算方法,其特征在于,所述步骤四中,获取待比较词语对的概念集合时,具体为:步骤4-1)获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;

步骤4-2)由用户指定概念获取层次,构建概念集合;

需要说明的是,用户可指定的层次如下所示:

g)Normal:只查找正常页面的Title;否则,返回None;

h)Normal_Redirect:只查找正常页面的Title或重定向页的RedirectTitle;若查找失败,则返回None;

i)Normal_Redirect_Disambig:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems;若查找失败,则返回None;

j)Normal_Redirect_HatenoteLinkItem:查找正常页面的Title或重定向页的RedirectTitle,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;

k)Normal_Redirect_Disambig_HatenoteLinkItems:查找正常页面的Title或重定向页的RedirectTitle,并查找消歧页的DisambigItems,并查找页面包含的HatenoteLinkItems;若查找失败,则返回None;

l)Normal_Redirect_Disambig_HatenoteLinkItems_HatenoteLinkDisambigItems:在Normal_Redirect_Disambig_HatenoteLinkItems的基础上,再增加HatenoteLinkItems所对应的可能DisambigItems;若查找失败,则返回None;

其中的符号释义说明如下:

Title:当wi所对应的Wikipedia页是一个正常页面(非消歧页,非重定向页)时,其对应概念就是Title;

RedirectTitle:当wi所对应的Wikipedia页是一个重定向页时,RedirectTitle是wi所对应的最终重定向页面的Title;

DisambigItems:当wi所对应的Wikipedia页是一个消歧页时,DisambigItems是消歧页所包含的所有可能的概念(不计与Title重复的);

HatenoteLinkItems:在Title对应的Wikipedia页面的开始部分的部分中,非歧义的热点文本;

HatenoteLinkDisambig:在Title对应的Wikipedia页面的开始部分的部分中,有歧义的热点文本;

HatenoteLinkDisambigItems:依次对HatenoteLinkDisambig各个消歧页提取有可能的概念(不计与Title重复的)。

6.根据权利要求1所述的基于Wikipedia概念向量的英文词语相关度计算方法,其特征在于,所述步骤五中,计算各个概念对的概念向量相似度并选取最大值作为词语相关度时,具体为:步骤5-1)待比较词语对为(w1,w2),w1的概念集合 和w2的概念集合 根据步骤三所得的概念向量文件,查询 和 中各个概念的

概念向量;若某一概念查找失败,则将其由概念集合中剔除;

步骤5-2)根据步骤5-1)处理过的 和 计算它们的笛卡尔积得待计算概念集合,记作步骤5-3)由步骤5-1)和步骤5-2),按照公式(3)计算每个概念对的概念向量相似度,生成候选结果集合;

其中 和 表示概念ci和cj的概念向量, 和 表示向量 和 的模;

步骤5-4)从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。

7.一种基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,该装置包括Wikipedia基础语料库构建单元、Wikipedia概念语料库构建单元、概念向量训练单元、概念集合提取单元、词语相关度计算单元,其中:Wikipedia基础语料库构建单元,用于对Wikipedia Dump生语料进行规范化处理,仅保留namespace属性为0的Wikipedia概念文档;对于每个概念文档,只保留其正式文本及概念标注信息;将处理后的概念文档收集起来,作为Wikipedia基础语料库;

Wikipedia概念语料库构建单元,用于对Wikipedia基础语料库进行概念标注扩充,构建Wikipedia概念语料库;

概念向量训练单元,用于使用Wikipedia概念语料库训练概念向量;

概念集合提取单元,用于对待比较词语对,根据Wikipedia查询由用户指定的不同层次的概念集合,获得其词语概念集合;

词语相关度计算单元,用于取得待比较词语对的概念集合的笛卡尔积,计算其中每个概念对所对应的概念向量的相似度;取最大的概念向量的相似度作为待比较词语对的相关度。

8.根据权利要求7所述的基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,所述Wikipedia基础语料库构建单元还包括:概念文档提取单元,用于对Wikipedia  Dump生语料提取namespace属性为0的Wikipedia概念文档;

单文档规范化处理单元,用于对文档内容进行如下处理:删除用户编辑记录和外部链接,替换特殊字符,保留概念标注信息,利用标记段落标题;其中,#n={1,2,3...n},代表文档标题的层级,从1到n表示由高到低;

根据权利要求7所述的基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,所述Wikipedia概念语料库构建单元还包括:词形还原单元,用于对Wikipedia基础语料库进行词形还原;

单文档概念标记扩充单元,用于根据one sense per discourse假设,对基础语料库中的每篇文档扩充概念标记;

全文档概念标记扩充单元,用于根据最大频率词义算法,对单文档概念扩充单元处理过的基础语料库进一步扩充概念标记;

根据权利要求7所述的基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,所述概念向量训练单元还包括:信息清除单元,用于对Wikipedia概念语料库进行处理,除去概念标记内词语的lemma信息,其他词语的token信息;

概念标记单元,用于对概念标记进行处理,只保留目标概念并查找目标概念所对应的文档ID,将ID与目标概念之间用“_”连接;去掉概念标记左右两侧的中括号,生成概念语料库;

概念向量训练单元,用于使用概念语料库训练概念向量;

根据权利要求7所述的基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,所述概念集合提取单元还包括:初始概念获取单元,用于获取Normal、Redirect、Disambig、HatenoteLinkItems、HatenoteLinkDisambigItems各个层次的初始概念集合;

概念层次选择单元,由用户指定概念获取层次,构建概念集合;

根据权利要求7所述的基于Wikipedia概念向量的英文词语相关度计算装置,其特征在于,所述词语相关度计算单元还包括:概念向量查询单元,用于查询概念集合中各个概念的概念向量;若某一概念查找失败,则将其由概念集合中剔除;

笛卡尔积计算单元,用于对概念向量查询单元处理的概念集合计算笛卡尔积;

概念向量相似度计算单元,用于计算概念集合中每个概念对的概念向量相似度,生成候选结果集合;

词语相关度选择单元,用于从候选结果集中选取概念向量相似度的最大值,作为待比较词语对的相关度。