利索能及
我要发布
收藏
专利号: 2018103499876
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网络爬虫方法,其特征在于,所述方法包括:

将每隔预设时间段获取的多个代理IP存储于预先设置的代理IP池中;

对所述代理IP池中的每个代理IP进行逐个验证,判断所获取的代理IP的有效性;

将确定为有效的代理IP记录于所述代理IP池中的白名单中,将确定为无效的代理IP记录于所述代理IP池中的黑名单中;

当侦测到当前的代理IP满足预先设置的代理替换条件时,从所述代理IP池中的所述白名单中选取出一个代理IP;及将选取出的代理IP作为新的代理IP进行数据爬取。

2.如权利要求1所述的方法,其特征在于,所述对所述代理IP池中的每个代理IP进行逐个验证,判断所获取的代理IP的有效性包括:对所述代理IP池中的每个代理IP进行逐个验证,判断所获取的代理IP是否具有第一有效性;

根据代理IP的访问成功率和访问响应时间判断具有所述第一有效性的代理IP是否具有第二有效性;

将确定为具有第二有效性的代理IP记录于所述代理IP池中的白名单中;

将确定为不具有第一有效性及具有第一有效性但不具有第二有效性的代理IP记录于所述代理IP池中的黑名单中。

3.如权利要求2所述的方法,其特征在于,所述根据代理IP的访问成功率和访问响应时间判断具有所述第一有效性的代理IP是否具有第二有效性包括:使用具有所述第一有效性的代理IP多次访问多个搜索引擎,计算所述具有第一有效性的代理IP的访问成功率及访问响应时间;

判断所述具有第一有效性的代理IP的访问成功率是否大于预先设置的访问成功率阈值,同时判断所述具有第一有效性的代理IP的访问响应时间是否小于预先设置的访问响应时间阈值;

当所述具有第一有效性的代理IP的访问成功率大于所述预先设置的访问成功率阈值且访问响应时间小于所述预先设置的访问响应时间阈值时,确定所述具有第一有效性的代理IP具有第二有效性;

当所述具有第一有效性的代理IP的访问成功率小于或等于所述预先设置的访问成功率阈值,或访问响应时间大于或等于所述预先设置的访问响应时间阈值时,确定所述具有第一有效性的代理IP不具有第二有效性。

4.如权利要求2所述的方法,其特征在于,所述将确定为不具有第一有效性及具有第一有效性但不具有第二有效性的代理IP记录于所述代理IP池中的黑名单中包括:将确定为具有第一有效性但不具有第二有效性的代理IP记录于所述黑名单中的第一黑名单子列表中,将确定为不具有第一有效性的代理IP记录于所述黑名单中的第二黑名单子列表中;

使用不具有第一有效性的代理IP多次访问多个搜索引擎,计算不具有第一有效性的代理IP的访问失败率;

判断不具有第一有效性的代理IP的访问失败率是否小于预先设置的访问失败率;

当所述不具有第一有效性的代理IP的访问失败率小于所述预先设置的访问失败率时,将对应的不具有第一有效性的代理IP确认为暂时无效的代理IP,并记录于所述第一黑名单子列表中;或当所述不具有第一有效性的代理IP的访问失败率大于所述预先设置的访问失败率时,将对应的不具有第一有效性的代理IP确认为永久无效的代理IP,并记录于所述第二黑名单子列表中。

5.如权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:根据代理IP的访问成功率及访问响应时间,对代理IP设置多个有效级别,将所述多个有效级别及其对应的代理IP记录于所述白名单中。

6.如权利要求5所述的方法,其特征在于,所述对代理IP设置多个有效级别包括:将访问成功率大于预先设置的第一访问成功率及访问响应时间大于预先设置的第一访问响应时间对应的代理IP作为第一有效级别的代理IP;

将访问成功率小于预先设置的第一访问成功率但大于预先设置的第二访问成功率阈值,访问响应时间小于预先设置的第一访问响应时间但大于预先设置的第二访问响应对应的代理IP作为第二有效级别的代理IP;

将访问成功率小于预先设置的第二访问成功率及访问响应时间小于预先设置的第二访问响应时间对应的代理IP作为第三有效级别的代理IP。

7.如权利要求1所述的方法,其特征在于,所述从所述代理IP池中的所述白名单中选取出一个代理IP是根据预先设置的代理选取规则进行选取,所述预先设置的代理选取规则包括以下一种或多种的组合:根据当前访问的搜索引擎类型从所述白名单中对应所述访问的搜索引擎类型的代理IP中选取;根据所述白名单中记录的代理IP的爬取次数进行选取;根据所述白名单中记录的代理IP访问的搜索引擎类型的数量进行选取;根据所述白名单中记录的代理IP的获取时间进行选取;延迟预设时间段后选取代理IP。

8.如权利要求1所述的方法,其特征在于,所述方法还包括:

对所述白名单列表提供用户选项,根据用户的添加、删除或更改操作更新所述白名单列表。

9.一种终端,其特征在于,所述终端包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的网络爬虫方法。

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的网络爬虫方法。