利索能及
我要发布
收藏
专利号: 2014107793042
申请人: 北京国双科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于网页爬取的数据处理方法,其特征在于,包括:在启动爬取程序之后,获取所述爬取程序当前爬取的网站的状态标志位;

确定所述状态标志位指示的爬取状态;

若所述状态标志位指示的所述爬取状态为中断爬取状态,则判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;

若所述当前崩溃次数不小于所述预设崩溃阈值,则终止所述爬取程序的工作;

若所述当前崩溃次数小于所述预设崩溃阈值,则控制所述爬取程序继续工作。

2.根据权利要求1所述的数据处理方法,其特征在于,启动爬取程序包括:使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位;

在启动爬取程序之后,所述数据处理方法还包括:

若所述爬取程序返回的数据为异常数据,则判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。

3.根据权利要求2所述的数据处理方法,其特征在于,在启动爬取程序之后,所述数据处理方法还包括:若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,则确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第一标识设置将所述网站的状态标志位。

4.根据权利要求2所述的数据处理方法,其特征在于,在判断出所述爬取程序崩溃之后,所述数据处理方法还包括:读取所述异常数据中的错误代码;

获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。

5.根据权利要求1至4中任意一项所述的数据处理方法,其特征在于,若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,所述数据处理方法还包括:使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;

若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,所述处理方法还包括:使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。

6.根据权利要求1至4中任意一项所述的数据处理方法,其特征在于,在确定所述状态标志位指示的爬取状态之后,所述数据处理方法还包括:若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出。

7.一种用于网页爬取的数据处理装置,其特征在于,包括:获取模块,在启动爬取程序之后,用于获取所述爬取程序当前爬取的网站的状态标志位;

确定模块,用于确定所述状态标志位指示的爬取状态;

判断模块,在所述确定装置确定的所述爬取状态为中断爬取状态的情况下,用于判断数据库中记录的当前崩溃次数是否小于预设崩溃阈值;

终止模块,在所述判断模块的判断结果为否的情况下,用于终止所述爬取程序的工作;

第一控制模块,在所述判断模块的判断结果为是的情况下,用于控制所述爬取程序继续工作。

8.根据权利要求7所述的数据处理装置,其特征在于,所述数据处理装置还包括:启动模块,用于使用正在爬取状态的第一标识设置所述数据库中的所述当前爬取的网站的状态标志位,启动爬取程序;

所述数据处理装置还包括:

修改模块,在所述爬取程序返回的数据为异常数据的情况下,用于判断出所述爬取程序崩溃,使用所述中断爬取状态的第二标识修改所述当前爬取的网站的状态标志位,并将所述数据库中记录的所述当前爬取的网站的当前崩溃次数加一。

9.根据权利要求8所述的数据处理装置,其特征在于,所述数据处理装置还包括:第一设置模块,在启动爬取程序之后,若所述爬取程序爬取所述网站的所有网络资源地址返回的数据均未出现异常,用于确定所述爬取程序成功爬取所述网站,使用正在爬取状态的第一标识设置将所述网站的状态标志位。

10.根据权利要求8所述的数据处理装置,其特征在于,所述数据处理装置还包括:读取模块,在判断出所述爬取程序崩溃之后,用于读取所述异常数据中的错误代码;

输出模块,用于获取所述错误代码的爬取崩溃信息,并输出所述爬取崩溃信息。

11.根据权利要求7至10中任意一项所述的数据处理装置,其特征在于,所述数据处理装置还包括:第二设置模块,若所述当前崩溃次数不小于所述预设崩溃阈值,在终止所述爬取程序的工作的同时,用于使用终止爬取状态的第三标识设置所述当前爬取的网站的状态标志位;

第三设置模块,若所述当前崩溃次数小于所述预设崩溃阈值,在控制所述爬取程序继续工作的同时,用于使用正在爬取状态的第二标识设置所述当前爬取的网站的状态标志位。

12.根据权利要求7至10中任意一项所述的数据处理装置,其特征在于,所述数据处理装置还包括:第二控制模块,在确定所述状态标志位指示的爬取状态之后,若所述状态标志位指示的爬取状态为正在爬取状态或终止爬取状态,则退出。