1.一种骨干网链路中用户上网行为数据采集方法,其特征在于,包括:捕获骨干网链路中包含超文本传输协议HTTP请求报文的数据包采用并行处理从数据包中根据HTTP协议解析提取用户访问的网站页面统一资源定位符URL、以及反映用户上网行为的HTTP字段信息;
根据URL模式特征树过网站页面URL进行过滤,获得需要抓取页面内容的网站页面URL;
以异步方式抓取所述过滤后的网站页面URL的页面内容。
2.根据权利要求1所述的用户上网行为数据采集方法,其特征在于,还包括:采用基于状态机的多模匹配方法将网站页面URL与过滤规则进行比较,以过滤掉不需要抓取的网站页面URL。
3.根据权利要求1或2所述的用户上网行为数据采集方法,其特征在于,所述根据URL模式特征树对网站页面URL进行过滤的步骤包括:将网站页面URL与非主页面URL模式特征树索引表和已抓取过的URL模式特征树索引表进行比较,过滤掉不需要抓取的网站页面URL。
4.根据权利要1所述的用户上网行为数据采集方法,其特征在于,还包括:将URL页面内容的可获取状态实时动态地反馈回URL模式特征树。
5.根据权利要求1所述的用户上网行为数据采集方法,其特征在于,所述捕获骨干网链路中包含HTTP请求报文的数据包的步骤包括:在高速骨干网上采用软件轮询方式从网卡设备中获得高速串行网络链路帧数据流;
以直接内存访问方式将高速串行网络链路帧数据存储到多个缓冲区中;
和/或
所述从数据包中根据HTTP协议解析提取用户访问的网站页面URL的步骤包括:采用多线程并行处理方式从数据包中根据HTTP协议解析提取用户访问的网站页面URL。
6.根据权利要求1所述的用户上网行为数据采集方法,其特征在于,还包括:从数据包中根据TCP/IP协议解析提取用户的IP地址;
根据用户IP地址查询数据库中用户IP-UserID映射服务,以获得用户的用户标识。
7.一种用户上网行为数据采集系统,其特征在于,包括:数据包捕获设备,用于捕获骨干网链路中包含HTTP请求报文的数据包;
统一资源定位符URL提取设备,用于从数据包中根据超文本传输协议HTTP协议解析提取用户访问的网站页面URL、以及反映用户上网行为的HTTP字段信息;
URL过滤设备,用于根据URL模式特征树对提取的网站页面URL进行过滤,获得需要抓取面内容的网站页面URL;
页面内容抓取设备,用于准实时地抓取所述过滤后的网站页面URL的页面内容。
8.根据权利要求7所述的用户上网行为数据采集系统,其特征在于,还包括:经验规则过滤设备,用于采用基于状态机的多模匹配方法将网站页面URL与经验规则表中的过滤规则进行比较,以过滤掉不需要抓取的网站页面URL。
9.根据权利要求7或8所述的用户上网行为数据采集系统,其特征在于,所述URL过滤设备将网站页面URL与非主页面URL模式特征树和已抓取过的URL模式特征树索引表做比较,过滤掉不需要抓取的网站页面URL。
10.根据权利要求7所述的用户上网行为数据采集系统,其特征在于,还包括:特征树反馈设备,用于将URL页面内容的可获取状态实时动态地反馈到URL模式特征树。
11.根据权利要求7所述的用户上网行为数据采集系统,其特征在于,所述数据包捕获设备在高速骨干网上采用软件轮询方式从网卡设备中获得高速串行网络链路帧数据流,以直接内存访问方式将高速串行网络链路帧数据存储到多个缓冲区中;
和/或
URL提取设备采用多线程并行处理方式从数据包中根据HTTP协议解析提取用户访问的网站页面URL。
12.根据权利要求7所述的用户上网行为数据采集系统,其特征在于,还包括:用户ID获取设备,用于从数据链路帧中根据TCP/IP协议解析提取用户的IP地址,根据用户IP地址查询数据库中用户IP-UserID映射服务获得用户的用户标识。