利索能及
我要发布
收藏
专利号: 2014107795315
申请人: 北京国双科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种爬虫程序工作状态的判断方法,其特征在于,包括:

判断爬虫程序的链接分析模块接收到的第一结果数据是否为第一爬取请求所产生的数据,其中,所述第一爬取请求为所述链接分析模块发出的最后一个请求;

若所述链接分析模块接收到的第一结果数据为所述第一爬取请求所产生的数据,则判断所述第一结果数据是否产生第二爬取请求,其中,所述第二爬取请求为解析所述第一结果数据产生的请求;

若所述第一结果数据未产生所述第二爬取请求,则判断出所述爬虫程序的工作状态为结束爬取;

若所述第一结果数据产生所述第二爬取请求,则判断出所述爬虫程序的工作状态为正在爬取。

2.根据权利要求1所述的判断方法,其特征在于,判断所述第一结果数据是否产生第二爬取请求包括:若所述链接分析模块接收到的第一结果数据为所述第一爬取请求所产生的数据,则开启计时器计时;

在预设时间段内判断所述链接分析模块是否输出所述第二爬取请求;

若所述链接分析模块输出所述第二爬取请求,则判断出所述第一结果数据产生所述第二爬取请求,停止并重置所述计时器;

若所述链接分析模块未输出所述第二爬取请求,则判断出所述第一结果数据未产生所述第二爬取请求。

3.根据权利要求1所述的判断方法,其特征在于,

在判断爬虫程序的链接分析模块接收到的第一结果数据是否为第一爬取请求所产生的数据之前,所述判断方法还包括:设置所述链接分析模块输出的各个第三爬取请求的第一标签;设置执行所述第三爬取请求得到第一结果数据的第二标签;建立所述第一标签与所述第二标签的映射关系,其中,所述第三爬取请求包括所述第一爬取请求;

判断爬虫程序的链接分析模块接收到的第一结果数据是否为第一爬取请求所产生的数据包括:通过所述第一标签和所述第二标签的映射关系判断所述第一结果数据是否为所述第一爬取请求所产生的数据。

4.根据权利要求3所述的判断方法,其特征在于,在设置所述链接分析模块输出的各个第三爬取请求的第一标签的同时,所述判断方法还包括:保存所述第一标签,停止并重置计时器的计时。

5.根据权利要求1至4中任意一项所述的判断方法,其特征在于,在判断出所述爬虫程序的工作状态为结束爬取之后,所述判断方法还包括:关闭所述爬虫程序的所述链接分析模块和页面爬取模块。

6.一种爬虫程序工作状态的判断装置,其特征在于,包括:

第一判断模块,用于判断爬虫程序的链接分析模块接收到的第一结果数据是否为第一爬取请求所产生的数据,其中,所述第一爬取请求为所述链接分析模块发出的最后一个请求;

第二判断模块,用于若所述链接分析模块接收到的第一结果数据为所述第一爬取请求所产生的数据,则判断所述第一结果数据是否产生第二爬取请求,其中,所述第二爬取请求为解析所述第一结果数据产生的请求;

第一确定模块,用于若所述第一结果数据未产生所述第二爬取请求,则判断出所述爬虫程序的工作状态为结束爬取;

第二确定模块,用于若所述第一结果数据产生所述第二爬取请求,则判断出所述爬虫程序的工作状态为正在爬取。

7.根据权利要求6所述的判断装置,其特征在于,所述第二判断模块包括:启动模块,用于若所述链接分析模块接收到的第一结果数据为所述第一爬取请求所产生的数据,则开启计时器计时;

第二判断子模块,用于在预设时间段内判断所述链接分析模块是否输出所述第二爬取请求;

第三确定模块,用于若所述链接分析模块输出所述第二爬取请求,则判断出所述第一结果数据产生所述第二爬取请求,停止并重置所述计时器;

第四确定模块,用于若所述链接分析模块未输出所述第二爬取请求,则判断出所述第一结果数据未产生所述第二爬取请求。

8.根据权利要求6所述的判断装置,其特征在于,所述判断装置还包括:第一设置模块,用于在判断爬虫程序的链接分析模块接收到的第一结果数据是否为第一爬取请求所产生的数据之前,设置所述链接分析模块输出的各个第三爬取请求的第一标签;

第二设置模块,用于设置执行所述第三爬取请求得到第一结果数据的第二标签;建立所述第一标签与所述第二标签的映射关系,其中,所述第三爬取请求包括所述第一爬取请求;

所述第一判断模块包括:第一判断子模块,用于通过所述第一标签和所述第二标签的映射关系判断所述第一结果数据是否为所述第一爬取请求所产生的数据。

9.根据权利要求8所述的判断装置,其特征在于,所述判断装置还包括:保存模块,用于在设置所述链接分析模块输出的各个第三爬取请求的第一标签的同时,保存所述第一标签,停止并重置计时器的计时。

10.根据权利要求6至9中任意一项所述的判断装置,其特征在于,所述判断装置还包括:关闭模块,用于在判断出所述爬虫程序的工作状态为结束爬取之后,关闭所述爬虫程序的所述链接分析模块和页面爬取模块。