利索能及
我要发布
收藏
专利号: 2019111134500
申请人: 临沂市拓普网络股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:包括如下步骤:S1、输入文章,首先利用scrapy爬虫技术从网站上抓取文章,然后通过beautifulsoup从HTML和XML文件中提取数据,再将这些文章输入到DeepDive深度学习框架中;

S2、挖掘知识点,DeepDive通过执行NLP函数将输入的文章拆分成句子,再进行分词,词性标注、语法依赖,再将知识点与数据库中的已有知识点进行对比,输出相同知识点,并将分解得到的知识点存储到csv文件中;

S3、关系、特征的提取,从csv文件中提取出他们的特征和关系,经过筛选和整合操作,最终获取到符合要求的知识点;

S4、计算知识相关性,然后通过对不同层级知识点相关性计算和同层级知识点相关性计算的方法,开始计算所得到的知识点之间的相关性;

S5、绘制知识图谱,最后将知识点之间的相关性输入到NEO4J工具中,构造成知识图谱;

所述步骤S1中beautifulsoup是一个用于从HTML和XML文件中提取数据的Python库,且能够获取单个的URL并剪切指定的数据;scrapy是一个用Python编写的免费开源的Web爬行框架;

所述步骤S2中DeepDive从文本文档中的暗数据提取有价值的数据;DeepDive用非结构化信息创建结构化数据SQL表,并将这些数据与现有的结构化数据库集成,提取有用的知识点;

所述步骤S2中使用DeepDive技术提取出知识点,并作为输入,再根据分离结果,删除所有不必要的数据,将数据转换成键值对的形式,然后转换为所需的规范,即不同的密钥包含相同的值,将包含相同值的密钥组合在一起,从获得的结果中删除单个字符和特殊符号;

所述知识点的所有单词和字符,即所选关键字中除复数形式外的任何单词与末尾的最后一个字符相同,则该单词将移动到新列表中,将新列表与标记文件进行比较,如果新列表的单个单词位于标记文件中,则考虑该句子;且一直重复到所有句子都完成,将所有的句子合并成一个列表,并计算出句子列表中每个单词的出现次数;再次将新列表与句子列表进行比较,通过创建新的列表,将新列表和句子列表中常见的单词分开。

2.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述新获得的列表中,采用word2vec技术,查找单词之间的相关性,并用NEO4J技术展示知识图谱。

3.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述知识数据转换成知识矩阵,且将数据键值对整理成知识之间的关系矩阵。

4.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述步骤S4中的不同层级知识点相关性计算:当a,b,c,d四个知识点都在同一个知识点N下时,那么知识点N出现的次数为包含abcd四个知识点的文章数量,a与N的关系即a出现的次数/N出现的次数;同层级知识点相关性计算:a,b两知识点的计算公式为log2(p(ab)/(p(a)*p(b))),其中p(ab)为ab同时出现的次数,p(a)为a出现的次数,p(b)为b出现的次数。

5.根据权利要求1所述的一种基于DeepDive技术构建K12教育知识图谱的方法,其特征在于:所述步骤S5中的NEO4J是一个高性能的,NOSQL图形数据库,能够将结构化数据存储在网络上而不是表中;是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎。