1.一种基于依存约束和知识的名词词义消歧方法,在特征在于,该方法包括以下步骤:步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
步骤二、对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
步骤三、根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
步骤四、根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;计算词义在依存约束集合中的后验概率时,具体为:步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:将词义代表词集中的某一词义代表词记作 将某一依存约束元组记作rj'并表示为:rj(w1,w2);
若歧义名词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中, 表示依存关系类型为rj、支配词为 从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的名词词形的总数;
若歧义名词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中, 表示依存关系类型为rj、支配词为w1、从属词为 的依存元组的数量;
c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的名词词形的总数;
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合, 表示词义代表词集,r′j表示某一依存约束元组, 表示某一词义代表词;步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
2.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤一中,构建依存知识库时,具体为:步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
3.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤二中,提取歧义名词的依存约束集合时,具体为:步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写,主体,形容词修饰,同位语,并列连接,直接宾语,不定式修饰,间接宾语,名词复合修饰,名词短语作副词修饰,名词性主语,被动名词性主语,分词修饰,介词修饰,关系从句修饰,开放从句主语;
步骤2-3)将过滤后所得的依存元组的集合,作为歧义名词的依存约束集合。
4.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤三中,提取各个词义的词义代表词集时,利用WordNet作为语义词典,具体为:步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;
步骤3-4)将上述三类词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
5.一种基于依存约束和知识的名词词义消歧装置,其特征在于,该装置用于实现权利要求1-4中任意一项基于依存约束和知识的名词词义消歧方法,包括依存知识库构建单元、歧义词依存约束集合提取单元、歧义词词义代表词提取单元、词义后验概率计算单元、歧义词词义选择单元,其中:依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元,用于对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
歧义词词义代表词集提取单元,用于根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
6.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述依存知识库构建单元还包括:单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
7.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述歧义词依存约束集合提取单元还包括:歧义句依存处理单元,用于对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下设定类型的元组:名词缩写,主体,形容词修饰,同位语,并列连接,直接宾语,不定式修饰,间接宾语,名词复合修饰,名词短语作副词修饰,名词性主语,被动名词性主语,分词修饰,介词修饰,关系从句修饰,开放从句主语;
依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合。
8.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述歧义词词义代表词集提取单元还包括:同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;
上位代表词提取单元,用于根据WordNet的Hypernym关系获得当前词义的上位词集;
词义代表词归并单元,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
9.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述词义后验概率计算单元还包括:词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。