1.一种基于神经网络的网页数据智能爬取方法,其特征在于,包括以下几个步骤:S1.输入待爬取数据源的网址;
S2.启动爬虫代码库与网页模板库;
S3.遍历网页模板库中保存的所有的网页样式;
S4.如果网页模板库中不存在与待爬取网页样式同样的样式,则将该网页样式添加到网页模板库,重新执行S3;如果网页模板库中存在与待爬取网页样式同样的样式,则启动领域知识库,将符合爬取条件的网页进行入队,添加到爬取队列,执行S5;
S5.根据所选取的关键字来爬取在爬取队列中的数据,将爬取的数据结果存入数据队列中;
S6.从数据队列中读取一条记录;
S7.当数据读取成功,将数据作为输入,输入到以自己数据集训练出来的神经网络模型进行打分,分值如果大于阈值则执行S9,分值如果小于阈值则执行S8;
S8.将数据作为负样本输入神经网络继续优化,执行S6;
S9.检查数据队列是否为空,若不为空则执行S6,否则执行S10;
S10.将数据存入key‑value数据库,并将数据输入到神经网络模型进行优化;
S11.结束任务。
2.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述的所输入的网页的网址为统一资源定位器记录。
3.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述步骤S2的具体方法为:爬虫代码库中保存的是爬虫程序所需要的用来爬取网页数据的爬取框架,并通过不同的爬取框架来爬取不同的网页;网页模板库中保存的是,针对不同的网页样式模板对应不同的数据爬取框架,也就是说能够根据网页样式的结构选择对应的数据爬取框架对于网页进行数据智能爬取。
4.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述步骤S4的具体方法为:根据输入的待爬取数据的网站网址,从中提取其域名下的子域名的网页的样式,并根据子域名对应网页的样式,通过打分器遍历网页模板库中的样式模板并计算每种样式与所待爬取网页样式的相似度分数,并将相似度分数按照从高到低进行排序,将最相似的top5个模板加入爬取队列中;同时启动领域知识库,领域知识库保存各个业务领域以及所属于该领域的高敏感的关键词,并通过对应领域的高敏感关键词来对待爬取网站进行筛选,把不包含高敏感关键词的网站筛除;如果对于待爬取的网页在网页模板库中没有同样的网页样式,则利用爬虫遍历该网页的所有HTMLDOM节点,并对每个节点下的文字数量进行计数,将文字数量最大的节点作为新的网页的正则模板保存到网页模板库,同时网页模板库中的该网页记录的正则模板的层叠样式表的筛选器的计数增加1,并将该网页模板和层叠样式表筛选器保存进网页模板库。
5.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述步骤S7的具体方法为:构建基于改进型的Bert神经网络模型;通过多领域数据集训练该模型;将带爬取的数据输入训练后的该神经网络模型后,该模型对爬取的数据进行打分,分值越高说明该数据所关联的特定领域的关键词越相关,相反则是说明该数据所关联的特定领域的关键词越无关。
6.根据权利要求1或5所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述的打分器的具体计算公式为:SimilarityScore=Jaccard(X,Y)+levX,Y(i,j),其中Jaccard(X,Y)为杰卡德相似性度量,用来比较样本集中的相似性和分散性的一个概率;Jaccard(X,Y)的计算公式如下所示:其中X,Y为所要进行计算的两个模板X与Y;
levX,Y(i,j)为编辑距离,主要用来计算两个字符串的相似度,其计算公式如下所示:其中i和j分别表示模板X和模板Y的下标,下标从1开始。
7.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述的步骤S8的具体方法为:将作为负样本的数据作为训练数据中的Text,并将该数据的标签设置为0,作为训练数据中的标签,表示该条数据与特定领域的相关性为0。
8.根据权利要求1所述的一种基于神经网络的网页数据智能爬取方法,其特征在于,所述的步骤S10的具体方法为:将该数据作为正样本的数据中训练数据中的Text,并将该数据的标签设置为1,作为训练数据中的标签,表示该条数据与特定领域的相关性为1。