利索能及
我要发布
收藏
专利号: 2018104334194
申请人: 和美(深圳)信息技术股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种领域知识库构建方法,所述方法包括:获取当前待构建领域中的领域核心词语;

根据所述领域核心词语获取对应的待处理文本;

对所述待处理文本进行拆分,得到对应的待分析语句;

对所述待分析语句进行分割,得到多个待分析词语;

根据预设规则从所述多个待分析词语中获取目标中心词语;

对所述待分析语句进行句法结构分析,得到与所述待分析语句对应的目标句法结构;

将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系,将所述关系存储入与待构建领域对应的领域知识库中。

2.根据权利要求1所述的方法,其特征在于,所述根据所述领域核心词语获取对应的待处理文本,包括:获取当前待构建领域中的各个领域核心词语和各个所述领域核心词语对应的多个领域词语;

根据各个所述领域核心词语和所述多个领域词语生成对应的文本;

对所述文本进行分词,得到多个分词结果;

将所述分词结果作为词向量模型的训练数据,对所述词向量模型进行训练得到已训练的词向量模型;

获取所述已训练的词向量模型的模型向量数据;

从所述模型向量数据中获取与各个所述领域核心词语和各个所述领域词语对应的领域核心词语向量和所述领域词语向量;

根据各个所述领域核心词语向量和各个所述领域词语向量计算得到对应的相似度集合;

从所述相似度集合中选取目标相似度,根据所述目标相似度获取对应的待处理文本。

3.根据权利要求2所述的方法,其特征在于,所述根据各个所述领域核心词语和所述多个领域词语生成对应的文本之后,还包括:获取所述多个领域词语对应的链接地址;

检测所述链接地址是否已经进行所述领域词语的提取,若是,则对所述链接地址进行提取标识;

将所述链接地址、所述提取标识与所述领域核心词语建立关联关系,并将所述关联关系写入所述文本。

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取所述目标相似度对应的所述领域核心词语向量和所述领域词语向量;

获取与所述领域核心词语向量对应的目标领域核心词语和与所述领域词语向量对应的目标领域词语;

根据获取到的所述目标领域核心词语和所述目标领域词语生成合法词典。

5.根据权利要求4所述的方法,其特征在于,所述合法词典用于对所述根据预设规则从所述多个待分析词语中获取到的所述目标中心词语进行矫正或者核对处理。

6.根据权利要求1所述的方法,其特征在于,所述根据预设规则从所述多个待分析词语中获取目标中心词语,包括:获取各个待分析词语对应的各个词性信息;

根据预设规则从各个所述词性信息中选取目标词性信息;

根据所述目标词性信息获取与所述目标词性信息对应的目标词语。

7.根据权利要求1所述的方法,其特征在于,所述对所述待分析语句进行句法结构分析,得到与所述待分析语句对应的目标句法结构,包括:对所述待分析语句进行分词,得到三元组形式的待分析语句;

根据所述三元组形式的待分析语句获取与所述待分析语句对应的目标句法结构。

8.一种领域知识库构建装置,其特征在于,所述装置包括:领域核心词语获取模块,用于获取当前待构建领域中的领域核心词语;

待处理文本获取模块,用于根据所述领域核心词语获取对应的待处理文本;

待分析语句生成模块,用于对所述待处理文本进行拆分,得到对应的待分析语句;

待分析语句分割模块,用于对所述待分析语句进行分割,得到多个待分析词语;

目标中心词语选取模块,用于根据预设规则从所述多个待分析词语中获取目标中心词语;

待分析语句分析模块,用于对所述待分析语句进行句法结构分析,得到与所述待分析语句对应的目标句法结构;

领域知识库生成模块,用于将所述目标中心词语、所述领域核心词语和所述目标句法结构建立关系,将所述关系存储入与待构建领域对应的领域知识库中。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。