1.一种大数据网络爬虫分页配置方法,其特征在于,它包括以下步骤:(1)第一配置,配置分页组的定位符;
(2)第二配置,配置页面按钮的匹配符;
(3)第三配置,配置标签的属性元素;
(4)第四配置,配置标题元素;
(5)第五配置,配置文本元素。
2.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的分页组为页数标签的CSSPATH地址。
3.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的定位符为CSSPATH定位符。
4.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第二配置,根据网页中页面按钮的显示字段来配置。
5.根据权利要求4所述的一种大数据网络爬虫分页配置方法,其特征在于:所述页面按钮的显示字段包括中文显示字段、英文显示字段和数字显示字段。
6.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第二配置,如果页面按钮的匹配符和分页组中的标签按钮匹配成功,则该标签的属性元素作为页面按钮的分页路径加入待爬取的URL队列中。
7.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的标签的属性元素为Href元素。
8.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的标题元素为分页组中的所有按钮的标签的标题属性值。
9.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第四配置,将标签的标题属性值字段与页面按钮的匹配符逐一匹配,如果过匹配成功,则获取该标签的Href值。
10.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第五配置,将标签的文本属性值字段与页面按钮的匹配符逐一匹配,如果匹配成功,则获取该标签的Href值。
11.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的文本元素为分页组中所有按钮的标签的文本属性值。
12.根据权利要求1-5任一项所述的一种大数据网络爬虫分页配置方法,其特征在于:爬虫引擎根据显示字段进行分页标签定位。