1.一种结合中英知识资源的中文词语语义关系识别方法,其特征在于,该方法包括以下步骤:
步骤一、结合多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
步骤1-1)利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么所述词语A和B存在反义关系,否则转步骤1-2),另外HowNet中定义的对义关系也作为一种反义关系处理;
步骤1-2)使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转步骤1-3);
步骤1-3)使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转步骤2-1);
步骤二、使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
步骤2-1)利用HowNet分别提取词语A和B的部分词集合MSETA和MSETB,如果B∈MSETA或A∈MSETB,那么所述词语A和B存在整体部分关系,否则转步骤2-2);
步骤2-2)使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词或部件词,定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的所有词义的义原定义集合DEFSETA和DEFSETB;使用DEFA和DEFB分别指代词语A和B的某一条词义的义原定义;如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则所述词语A和B存在整体部分关系,否则转步骤3-1);
此外,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变;
步骤三、利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
步骤四、借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系;
步骤五、使用汉英词典将中文词语对翻译转换为英文;
步骤5-1)利用汉英词典将词语A和B分别翻译转换为相应的英文集合ENSETA和ENSETB;
步骤六、利用英文知识资源对步骤五所得英文词语对进行词语语义关系识别,以确定原中文词语对的语义关系;
步骤6-1)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的反义词集合ENASETA,如果词语ENB∈ENASETA,则英文词语ENA和ENB存在反义关系,也即步骤5-1)所述中文词语A和B存在反义关系,否则转步骤6-2;
步骤6-2)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的部分词集合ENMSETA和ENMSETB,如果词语ENB∈ENMSETA或ENA∈ENMSETB,则英文词语ENA和ENB存在整体部分关系,也即步骤5-1)所述中文词语A和B存在整体部分关系,否则转步骤6-3);
步骤6-3)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的同义词集合ENSSETA,如果词语ENB∈ENSSETA,则英文词语ENA和ENB存在同义关系,也即步骤5-1)所述中文词语A和B存在同义关系,否则转步骤6-4);
步骤6-4)对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的下位词集合ENHSETA和ENHSETB,如果词语ENB∈ENHSETA或ENA∈ENHSETB,则英文词语ENA和ENB存在上下位关系,也即步骤5-1)所述中文词语A和B存在上下位关系。
2.根据权利要求1所述的结合中英知识资源的中文词语语义关系识别方法,其特征在于,所述步骤三中,判定同义关系时,具体为:步骤3-1)根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果词语B∈SSETA,则所述词语A和B存在同义关系,否则转步骤3-2);
步骤3-2)利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则所述词语A和B存在同义关系,否则转步骤3-3);
步骤3-3)利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则所述词语A和B存在同义关系,否则转步骤3-4);
步骤3-4)根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足 则所述词语A和B存在同义关系,否则转步骤4-1)。
3.根据权利要求1所述的结合中英知识资源的中文词语语义关系识别方法,其特征在于,所述步骤四中,判定上下位关系时,具体为:步骤4-1)利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则所述词语A和B存在上下位关系,否则转步骤4-2);
步骤4-2)根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的所有词义的义原定义集合DEFSETA和DEFSETB;使用DEFA和DEFB分别指代词语A和B的某一条词义的义原定义;如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且DEFA所含有的义原的集合可视为DEFB所含有的义原的集合的真子集或DEFB所含有的义原的集合可视为DEFA所含有的义原的集合的真子集,则所述词语A和B具有上下位关系。
4.一种结合中英知识资源的中文词语语义关系识别装置,其特征在于,该装置包括反义关系识别单元、整体部分关系识别单元、同义词关系识别单元、上下位关系识别单元,其中:
反义关系识别单元,用于使用多种中文知识资源获取反义词集合,根据反义词集合判定词语间语义关系是否具有反义关系;
整体部分关系识别单元,用于使用多种中文知识资源提取部分词集合,根据部分词集合判定词语间是否具有整体部分关系;
同义关系识别单元,用于利用多种中文知识资源提取同义词集合,基于同义词集合判定词语间是否具有同义关系;
上下位关系识别单元,用于借助于多种中文知识资源提取下位词集合,根据下位词集合判定词语间是否具有上下位关系;
汉英转译单元,用于使用汉英词典将中文词语对翻译转换为英文;
英文词语语义关系识别单元,用于利用英文知识资源对汉英转译单元所得英文词语对进行词语语义关系识别,以确定原中文词语对的语义关系。
5.根据权利要求4所述的结合中英知识资源的中文词语语义关系识别装置,其特征在于,所述包括:
HowNet反义关系识别单元,用于利用HowNet中显式定义的反义关系,对给定词语A和B进行词语A的反义词集合ASETA提取操作,如果B∈ASETA,那么所述词语A和B存在反义关系,否则转百度汉语反义关系识别单元,另外HowNet中定义的对义关系也作为一种反义关系处理;
百度汉语反义关系识别单元,用于使用百度汉语提取给定词语A的反义词集合ASETA,利用哈工大同义词词林扩展版提取词语A的同义词集合SSETA,对于每个词语W∈SSETA提取其反义词并合并到ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转百度百科反义关系识别单元;
百度百科反义关系识别单元,用于使用百度百科提取词语A的反义词集合ASETA,如果词语B∈ASETA,则所述词语A和B存在反义关系,否则转整体部分关系识别单元;HowNet整体部分关系识别单元,用于利用HowNet分别提取词语A和B的部分词集合MSETA-和MSETB,如果B∈MSETA或A∈MSETB,那么所述词语A和B存在整体部分关系,否则转义原定义整体部分关系识别单元;
义原定义整体部分关系识别单元,用于使用HowNet义原定义进行处理,在定义中含有义原“part|部件”的词语表示该词作为某个词语的部分词或部件词,定义中的“whole”属性的值指示了其整体词的义原定义,据此提取词语A和B的所有词义的义原定义集合DEFSETA和DEFSETB;使用DEFA和DEFB分别指代词语A和B的某一条词义的义原定义;如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足DEFA含有“whole”属性且其值为DEFB,或DEFB含有“whole”属性且其值为DEFA,则所述词语A和B存在整体部分关系,否则转同义关系识别单元;
此外,在义原定义整体部分关系识别单元中,有些词语对直接利用义原定义不能有效识别出整体部分关系,可以通过泛化的方式进行处理,将上述中“whole”属性的值泛化为其上位概念,其余操作不变;
词林同义关系识别单元,用于根据哈工大同义词词林扩展版中标有“=”的行表示同义词,获取词语A的同义词集合SSETA,如果B∈SSETA,则所述词语A和B存在同义关系,否则转HowNet同义关系识别单元;
HowNet同义关系识别单元,用于利用HowNet提取词语A的同义词集合SSETA,如果词语B∈SSETA,则所述词语A和B存在同义关系,否则转百度汉语同义关系识别单元;
百度汉语同义关系识别单元,用于利用百度汉语提取词语A的同义词集合SSETA,如果词语B∈SSETA,则所述词语A和B存在同义关系,否则转百度百科同义关系识别单元;
百度百科同义关系识别单元,用于根据百度百科的页面链接,分别获取词语A和B的百科链接页面集合PSETA和PSETB,如果满足 则所述词语A和B存在同义关系,否则转上下位关系识别单元;
HowNet上下位关系识别单元,用于利用HowNet分别提取词语A和B的下位词集合HSETA和HSETB,如果B∈HSETA或A∈HSETB,则所述词语A和B存在上下位关系,否则转义原定义上下位关系识别单元;
义原定义上下位关系识别单元,用于根据HowNet义原定义蕴含的上下位关系,分别提取词语A和B的所有词义的义原定义集合DEFSETA和DEFSETB;使用DEFA和DEFB分别指代词语A 和B的某一条词义的义原定义;如果存在DEFA∈DEFSETA和DEFB∈DEFSETB,满足主要义原一致且DEFA所含有的义原的集合可视为DEFB所含有的义原的集合的真子集或DEFB所含有的义原的集合可视为DEFA所含有的义原的集合的真子集,则所述词语A和B具有上下位关系;汉英转译单元,用于利用汉英词典将词语A和B分别翻译转换为相应的英文集合ENSETA和ENSETB;
英文反义关系识别单元,用于对每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的反义词集合ENASETA,如果词语ENB∈ENASETA,则英文词语ENA和ENB存在反义关系,也即所述中文词语A和B存在反义关系,否则转英文整体部分关系识别单元;
英文整体部分关系识别单元,用于对每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的部分词集合ENMSETA和ENMSETB,如果词语ENB∈ENMSETA或ENA∈ENMSETB,则英文词语ENA和ENB存在整体部分关系,也即所述中文词语A和B存在整体部分关系,否则转英文同义关系识别单元;
英文同义关系识别单元,用于对每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源提取词语ENA的同义词集合ENSSETA,如果词语ENB∈ENSSETA,则英文词语ENA和ENB存在同义关系,也即所述中文词语A和B存在同义关系,否则转英文上下位关系识别单元;
英文上下位关系识别单元,用于对于每个英文词语ENA∈ENSETA,ENB∈ENSETB,根据英文知识资源分别提取词语ENA和ENB的下位词集合ENHSETA和ENHSETB,如果词语ENB∈ENHSETA或ENA∈ENHSETB,则英文词语ENA和ENB存在上下位关系,也即所述中文词语A和B存在上下位关系。