利索能及
我要发布
收藏
专利号: 201710236259X
申请人: 成都四方伟业软件股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种大数据网络爬虫分页配置方法,其特征在于,它包括以下步骤:(1)第一配置,配置分页组的定位符;

(2)第二配置,配置页面按钮的匹配符;

(3)第三配置,配置标签的属性元素;

(4)第四配置,配置标题元素;

(5)第五配置,配置文本元素。

2.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的分页组为页数标签的CSSPATH地址。

3.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的定位符为CSSPATH定位符。

4.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第二配置,根据网页中页面按钮的显示字段来配置。

5.根据权利要求4所述的一种大数据网络爬虫分页配置方法,其特征在于:所述页面按钮的显示字段包括中文显示字段、英文显示字段和数字显示字段。

6.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第二配置,如果页面按钮的匹配符和分页组中的标签按钮匹配成功,则该标签的属性元素作为页面按钮的分页路径加入待爬取的URL队列中。

7.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的标签的属性元素为Href元素。

8.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的标题元素为分页组中的所有按钮的标签的标题属性值。

9.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第四配置,将标签的标题属性值字段与页面按钮的匹配符逐一匹配,如果过匹配成功,则获取该标签的Href值。

10.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的第五配置,将标签的文本属性值字段与页面按钮的匹配符逐一匹配,如果匹配成功,则获取该标签的Href值。

11.根据权利要求1所述的一种大数据网络爬虫分页配置方法,其特征在于:所述的文本元素为分页组中所有按钮的标签的文本属性值。

12.根据权利要求1-5任一项所述的一种大数据网络爬虫分页配置方法,其特征在于:爬虫引擎根据显示字段进行分页标签定位。