1.一种大数据网络爬虫分页选择方法,其特征在于,它包括以下步骤:S0:配置,爬虫脚本中的分页配置;
所述的配置步骤S0,包括以下子步骤:
第一配置,配置分页组的定位符,分页组是一组选定标签A的集合,其业务含义为一系列页数标签,即A标签;
第二配置,配置页面按钮的匹配符,该匹配符是用于做智能分页的匹配符;
第三配置,配置标签的属性元素,该属性元素为分页组中所有按钮的A标签的Href属性;
第四配置,配置标题元素,该标题元素为分页组中所有按钮的A标签的title的属性值;
第五配置,配置文本元素,该文本元素为分页组中所有按钮的A标签的txt的属性值;
S1:第一解析,解析爬虫脚本;
S2:第一匹配,获取匹配符,对爬虫脚本内容中的标签信息进行匹配;
S3:存储,将匹配成功的标签的特征值存入URL队列中;
S4:获取及校验,获取URL队列中的URL连接地址,校验URL连接地址;
S5:第二匹配,获取校验后的URL连接地址,进行地址匹配;
S6:第二解析,解析地址匹配成功的URL地址的网页,获取分页信息。
2.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S6之后,还包括一个返回步骤S7,所述的返回步骤S7,在获取分页信息后,返回到步骤S2中,从而实现循环爬取。
3.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:所述的URL队列为内存队列。
4.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:所述的URL队列为文件队列。
5.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S1中,包括以下子步骤:S11:读取爬虫脚本文件并校验,然后把爬虫脚本文件中的规则字符串转换为JsonArray;
S12:将JsonArray转化为脚本JAVA对象;
S13:解析脚本JAVA对象中的爬虫规则,再将解析结果设置到脚本JAVA对象中。
6.根据权利要求5所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S13中,使用递归解析来获取脚本内容对象中爬虫规则中的字段及字段的信息。
7.根据权利要求6所述的一种大数据网络爬虫分页选择方法,其特征在于:所述字段的信息包括name信息、css信息、save信息、click信息、regex信息和type信息。
8.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S2中,获取字段中的匹配符,逐一对脚本内容对象中的标签的文本元素和标题元素进行匹配。
9.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S3中,所述的特征值为Href值。
10.根据权利要求9所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S3中,在步骤S2中匹配成功后,将相应标签的Href值存入待爬取的URL队列中等待爬取。
11.根据权利要求1所述的一种大数据网络爬虫分页选择方法,其特征在于:在步骤S5中,对URL地址进行过滤匹配,通过模糊匹配变量来实现地址匹配。
12.根据权利要求1-11任意一项所述的一种大数据网络爬虫分页选择方法的一种大数据网络爬虫分页选择系统,其特征在于,它包括:第一解析模块,用于解析爬虫脚本;
第一匹配模块,用于获取匹配符,对爬虫脚本内容中的标签信息进行匹配;
存储模块,用于将匹配成功的标签的特征值存入URL队列中;
获取模块,用于获取URL队列中的URL连接地址,校验URL连接地址;
第二匹配模块,用于获取校验后的URL连接地址,进行地址匹配;
第二解析模块,用于解析地址匹配成功的URL地址的网页,获取分页信息。
13.根据权利要求12所述的一种大数据网络爬虫分页选择系统,其特征在于,它还包括:第一配置模块,用于配置分页组的定位符;
第二配置模块,用于配置页面按钮的匹配符;
第三配置模块,用于配置标签的属性元素;
第四配置模块,用于配置标题元素;
第五配置模块,用于配置文本元素。