1.一种基于HowNet的图模型词义消歧方法,其特征在于,包括如下步骤:S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;具体步骤如下:S101、构建上下文依存关系图:对歧义句进行依存句法分析,获取上下文依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到上下文依存关系图;
S102、构建例句依存关系图:对目标歧义词在HowNet词义概念定义中的例句进行依存句法分析,获取例句依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到例句依存关系图;
S103.构建依存消歧图:融合上下文依存关系图和例句依存关系图,得到依存消歧图,具体如下:①、若目标歧义词在HowNet的词义概念定义中,存在一个例句,使得该例句所具有的依存关系都匹配歧义句,即该例句的例句依存关系图为歧义句依存关系图的子图时,将上下文依存关系图和例句依存关系图进行合并,作为依存消歧图,并在图中标注对应的词义概念信息;
②、若目标歧义词在HowNet的词义概念定义中,未有一个例句,使得该例句所具有的依存关系匹配歧义句,即各个例句的例句依存关系图均不是歧义句依存关系图的子图,则直接将上下文依存关系图作为依存消歧图;
S2、构建上下文消歧图:在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
S3、利用消歧图进行消歧处理:借助于依存消歧图和上下文消歧图进行消歧处理;
S4、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:①、若消歧结果中仅有一个词义概念,则作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者作为正确词义。
2.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S101中依存句法分析是指根据依存句法分析器中的依存句法分析模型规定的依存语法规则分析句子的结构,确定各个词或词组间的依存关系以及在句子中的作用,从而得出依存句法分析的结果,依存句法分析的结果采用三元组的形式表示。
3.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S2中构建上下文消歧图具体步骤如下:S201、提取上下文知识:根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
S202、构建上下文消歧图:以上下文知识和目标歧义词各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
4.根据权利要求3所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S202中上下文消歧图为一个无向图,图中的顶点表示词义概念,采用词语词汇和HowNet概念编号相结合的形式进行表示;边表示语义关系,并将概念相似度作为边的权重。
5.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S3中利用消歧图进行消歧处理具体步骤如下:S301、确定消歧处理规则:对上下文消歧图和依存消歧图进行处理的规则是,判断依存消歧图中是否存在词义概念标注信息:①、若存在,则对其使用依存消歧图进行消歧处理,下一步执行步骤S302;
②、若不存在,则使用上下文消歧图进行处理,下一步执行步骤S303;
S302、利用依存消歧图进行消歧处理:将依存消歧图中存在的目标歧义词的词义概念个数记为count,判断count是否等于1:①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果,下一步执行结束命令;
②、若count不等于1,则下一步执行步骤S303;
S303、利用上下文消歧图进行消歧处理:对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表。
6.根据权利要求5所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S303中图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:其中,1‑α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
7.一种基于HowNet的图模型词义消歧系统,其特征在于,该系统包括,依存消歧图构建单元,用于分别对歧义句和目标歧义词例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;
上下文消歧图构建单元,用于在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
消歧图处理单元,用于利用依存消歧图和上下文消歧图进行消歧处理;
正确词义选择单元,用于在消歧结果中选择正确词义;
其中,依存消歧图构建单元包括,
上下文依存关系图构建单元,用于对歧义句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建上下文依存关系图;
例句依存关系图构建单元,用于对目标歧义词例句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建例句依存关系图;
依存消歧图构建单元,用于融合上下文依存关系图和例句依存关系图,得到依存消歧图。
8.根据权利要求7所述的基于HowNet的图模型词义消歧系统,其特征在于,所述上下文消歧图构建单元包括:上下文知识提取单元,用于根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
上下文消歧图构建单元,用于以上下文知识和目标歧义词的各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
9.根据权利要求7或8所述的基于HowNet的图模型词义消歧系统,其特征在于,所述消歧图处理单元包括:消歧处理规则确定单元,用于确定对上下文消歧图和依存消歧图进行处理的规则:判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图处理单元进行消歧处理;
②、若不存在,则使用上下文消歧图处理单元进行处理;
依存消歧图处理单元,用于处理依存消歧图,将依存消歧图中存在的目标歧义词的词义概念的个数记为count,判断count是否等于1:①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果;
②、若count不等于1,则采用上下文消歧图处理单元进行消歧处理;
上下文消歧图处理单元,用于对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:其中,1‑α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
所述正确词义构建单元包括,
选择正确词义单元,用于获取目标词各词义概念得分最高者作为正确词义。