1.一种确定人物间关联关系的方法,其特征在于,包括:获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据。
2.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述英文文本数据中的人名包括英文人名和/或拼音人名;
当所述英文文本数据中的人名仅为英文人名时,则将各英文文本数据中提取到的英文人名进行比较,当不同英文文本数据中存在共同的英文人名,则表示待识别人物关键词之间存在关联,并存储共同的英文人名与对应的英文文本数据;
当所述英文文本数据中的人名仅为拼音人名时,则将各英文文本数据中提取到拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名时,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名与对应的英文文本数据;
当所述英文文本数据中的人名包括英文人名和拼音人名时,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据;
当不同英文文本数据中不存在共同的英文人名,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据。
3.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,包括:将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
对所述预处理英文文本数据进行分词,得到分词结果;
通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除。
4.根据权利要求3所述的一种确定人物间关联关系的方法,其特征在于,所述分词结果携带有顺序标识;
所述通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果,包括:
计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
5.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述英文文本数据包括新闻文本、活动网站地址和社交数据。
6.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述确定人物间关联关系的方法还包括:
获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
基于所述单字拼音和所述双字拼音间初始拼音词库;
通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
7.一种确定人物间关联关系的装置,其特征在于,包括:文本数据获取模块,用于获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
人名识别模块,用于通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
人名对比模块,用于将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据。
8.根据权利要求7所述的一种确定人物间关联关系的方法,其特征在于,所述人名识别模块包括:
文本数据预处理单元,用于将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
文本数据分词单元,用于对所述预处理英文文本数据进行分词,得到分词结果;
拼音人名词库识别单元,用于通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
拼音地名词库识别单元,用于将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除。
9.根据权利要求8所述的一种确定人物间关联关系的方法,其特征在于,所述拼音人名词库识别单元包括:
第一拼音人名词库识别单元,用于计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
第二拼音人名词库识别单元,用于若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
第一初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
第三拼音人名词库识别单元,用于若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
第二初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
第三初始人名识别结果获取单元,用于若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
10.根据权利要求7所述的一种确定人物间关联关系的方法,其特征在于,所述确定人物间关联关系的装置还包括:
单字拼音处理单元,用于获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
初始拼音词库建立单元,用于基于所述单字拼音和所述双字拼音建立初始拼音词库;
拼音人名词库建立单元,用于通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。