1.一种基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,该方法包括以下步骤:步骤一、结合多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
步骤二、使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
步骤三、利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
步骤四、借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系。
2.根据权利要求1所述的基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,所述步骤一中,判定反义语义关系时,具体为:步骤1-1)利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么两词语存在反义关系,否则转步骤1-2),另外HowNet中定义的对义关系也作为一种反义关系处理;
步骤1-2)使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则词语A和B存在反义关系,否则转步骤1-3);
步骤1-3)使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则两词语存在反义关系,否则转步骤2-1)。
3.根据权利要求1所述的基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,所述步骤二中,判定整体部分关系时,具体为:步骤2-1)利用HowNet分别提取词语A和B的部分词集合MSETA和MSETB,如果B∈MSETA或A∈MSETB,那么两词语存在整体部分关系,否则转步骤2-2);
步骤2-2)使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词(部件),定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则词语A和B存在整体部分关系,否则转步骤3-1);
此外,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变。
4.根据权利要求1所述的基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,所述步骤三中,判定同义关系时,具体为:步骤3-1)根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果B∈SSETA,则词语A和B存在同义关系,否则转步骤3-2);
步骤3-2)利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转步骤3-3);
步骤3-3)利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转步骤3-4);
步骤3-4)根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足 则词语A和B存在同义关系,否则转步骤4-1)。
5.根据权利要求1所述的基于多种中文知识资源的中文词语语义关系识别方法,其特征在于,所述步骤四中,判定上下位关系时,具体为:步骤4-1)利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则词语A和B存在上下位关系,否则转步骤4-2);
步骤4-2)根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且或 则词语A和B具有上下位关系。
6.一种基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,该装置包括反义关系识别单元、整体部分关系识别单元、同义词关系识别单元、上下位关系识别单元,其中:反义关系识别单元,用于使用多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
整体部分关系识别单元,用于使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
同义关系识别单元,用于利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
上下位关系识别单元,用于借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系。
7.根据权利要求6所述的基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,所述反义关系识别单元还包括:HowNet反义关系识别单元,用于利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么两词语存在反义关系,否则转百度汉语反义关系识别单元,另外HowNet中定义的对义关系也作为一种反义关系处理;
百度汉语反义关系识别单元,用于使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则词语A和B存在反义关系,否则转百度百科反义关系识别单元;
百度百科反义关系识别单元,用于使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则两词语存在反义关系,否则转整体部分关系识别单元。
8.根据权利要求6所述的基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,所述整体部分关系识别单元还包括:HowNet整体部分关系识别单元,用于利用HowNet分别提取词语A和B的部分词集合MSETA和MSETB,如果B∈MSETA或A∈MSETB,那么两词语存在整体部分关系,否则转义原定义整体部分关系识别单元;
义原定义整体部分关系识别单元,用于使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词(部件),定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则词语A和B存在整体部分关系,否则转同义关系识别单元;
此外,在义原定义整体部分关系识别单元中,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变。
9.根据权利要求6所述的基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,所述同义关系识别单元还包括:词林同义关系识别单元,用于根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果B∈SSETA,则词语A和B存在同义关系,否则转HowNet同义关系识别单元;
HowNet同义关系识别单元,用于利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转百度汉语同义关系识别单元;
百度汉语同义关系识别单元,用于利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则词语A和B存在同义关系,否则转百度百科同义关系识别单元;
百度百科同义关系识别单元,用于根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足 则词语A和B存在同义关系,否则转上下位关系识别单元。
10.根据权利要求6所述的基于多种中文知识资源的中文词语语义关系识别装置,其特征在于,所述上下位关系识别单元还包括:HowNet上下位关系识别单元,用于利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则词语A和B存在上下位关系,否则转义原定义上下位关系识别单元;
义原定义上下位关系识别单元,用于根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的义原定义集合DEFSETA和DEFSETB,如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且 或 则词语A和B具有上下位关系。