1.一种用于收集工业链数据的互联网系统,该互联网系统包括数据收集系统和数据归纳分析系统,其特征在于:
所述数据收集系统用于收集产品的工业链数据,所述数据收集系统包括控制器、解析器和资源库,所述控制器包括新建任务模块和任务分配模块,所述新建任务模块根据用户的指令创建新的任务进程,从而去收集商品、服务及关联知识的详细信息,其中商品包括工业设备、科学仪器、工业原材料,服务包括简单的技术支持和全套的解决方案提供,关联知识包括和产品/服务相关的案例解析、应用方案、国家行业标准,所述任务分配模块负责给多线程中的各个线程分配工作任务,所述解析器包括相似性判断模块、网页下载模块和网页处理模块,所述相似性判断模块计算网页主题与用户查找主题的相关性,并计算网页适应度值,将种子URL集中网页匹配度复合要求的网页链接存储到URL集中,并根据URL结果生成待爬取任务,所述网页下载模块根据任务将匹配的网页下载至本地,所述网页处理模块负责对下载后的网页中Js脚本标签、css代码内容、空格字符、HTML标签内容处理掉,所述资源库包括构建索引模块和缓存模块,所述构建索引模块允许用户在表中创建索引,用于数据的快速查询,所述缓存模块将数据存储起来;
所述数据归纳分析系统用于把收集到的商品、服务及关联知识的详细信息归纳,然后分析从而形成工业链大数据库,所述数据归纳分析系统包括数据信息输入模块、数据信息归纳分析模块和数据信息存储模块,所述数据信息输入模块用于接收数据收集系统收集到的各种详细信息数据,所述数据信息归纳分析模块对数据进行分析,并将收集到的数据分类,所述数据信息存储模块用于存储数据信息归纳分析模块处理后的数据。
2.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述数据收集系统中商品详细信息包括商品的名称规格、应用行业、行业下产品类别、在行业中的作用、适用该行业下的关键指标、上下游商品、配置方案、在产品工业链中的角色以及相关的案例、应用方案、国家行业标准。
3.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述数据收集系统中服务详细内容包括服务标题、服务行业领域、服务详情以及相关的案例、配套方案、国家行业标准。
4.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述构建索引模块内设置有构建索引算法:首先指定数据的reduce个数,map进程对输入文件检测输入格式、对key进行计算,然后输出,指定分区函数,对记录进行分区,即根据各自项目的需求,使这些记录分发到每个reduce进程去,每个reduce进程创建一个搜索引擎的writer,不断执行writer.addDocument操作添加文档,这个过程中会触发commit操作,对应生成很多个索引片段,调用搜索引擎的强制合并把索引合成一整块,得到索引数据。
5.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述缓存模块内设置有LRU‑K算法:
(a)数据第一次被访问,加入到访问历史队列;
(b)如果数据在访问历史队列里后没有达到K次访问,则按照规则(FIFO,LRU)淘汰;
(c)当访问历史队列中的数据访问次数达到K次后,将数据索引从历史队列删除,将数据移到缓存队列中,并缓存此数据,缓存队列重新按照时间排序;
(d)缓存数据队列中被再次访问后,重新排序;
(e)需要淘汰数据时,淘汰缓存队列中排在末尾的数据,即:淘汰“倒数第K次访问离现在最久”的数据。
6.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述相似性判断模块内设置有判断规则:计算网页主题与用户查找主题相关性,计算出网页适应度值S,将网页适应度值S与预设的网页适应度阈值Y进行比较,当S≥Y时,则该网页的网页适应度值S符合要求,将该网页链接存储到URL集中,并根据URL结果生成待爬取任务,当S≤Y时,则该网页的网页适应度值S不符合要求,该网页链接集中不需要存储到URL集中。
7.根据权利要求6所述的一种用于收集工业链数据的互联网系统,其特征在于,所述网页下载模块包括选择单元、交叉单元和变异单元,所述选择单元根据判断规则从种子URL集中选出符合要求的网页连接,所述交叉单元用于选择未被存储到RUL集中的网页链接,从而扩大搜索的范围,所述变异单元根据交叉单元获得的网页链接重新进行检索。
8.根据权利要求1所述的一种用于收集工业链数据的互联网系统,其特征在于,所述数据信息归纳分析模块内预设有分类规则:规则用析取范式R=(r1ⅴr2ⅴ…ⅴrk)表示,R为规则集,ri是分类规则,每一个分类规则ri:(条件i)→yi,规则左边成为规则前件或前提,它是属性测试的合取:条件i=(A1 op v1)∧(A2 op v2)∧…∧(A3 op v3),其中(Aj,vj)是属性值对,op是比较运算符,取自集合{=,≠,﹤,﹥,≦,≧},每一个属性测试(Aj op vj)称为一个合取项,规则右边称为规则后件,包含预测类yi,如果规则r的前件和记录x的属性匹配,则称r覆盖x,当r覆盖给定的记录时,称r被激发或触发,分类规则的质量能用覆盖率coverage和准确率accuracy来度量,给定数据集D和分类规则r:A→y,规则的覆盖率定义为D中触发规则r的记录所占的比例,准确率或置信因子定义为触发r的记录中类标号等于y的记录所占的比例,Coverage(r)=|A|/|D|,Accuracy(r)=|A∩y|/|A|,其中|A|是满足规则前件的记录数,|A∩y|是同时满足规则前件和后件的记录数,D是记录总数。