1.一种基于改进的PageRank的网络爬虫方法,其特征在于,包括以下步骤:(1)爬取网页
获取自定义网站的首页链接,解析网页,使用re匹配网页链接,提前设置爬取网页的数量,爬取完成之后将爬取结果存储于URL_list集合;
(2)获取网页关系
循环解析URL_list集合中的每个网页,获取该解析网页中存在的全部链接地址,并将解析结果存储在link_list的二维字典中;
在解析网页的过程中,将该网页的网址存储为外部字典的Key,将从该网页中获取的其他网页地址存储为内部字典的Key;内部字典的Value使用数字“1”赋值;
(3)获取关系矩阵
定义两个字典,分别为索引节点和节点索引;其中,索引节点中的Key为link_list外部字典Key的下标,从0开始,逐个递增,其Value存储的是link_list外部字典的Key;
节点索引的Key为link_list外部字典的Key,其Value为link_list外部字典Key的下标,从0开始,逐个递增;
在生成索引节点与节点索引之后,定义一个长度为n*n的零矩阵M,其中n为爬取网页的数量,二者循环嵌套构成关系矩阵;
(4)获取初始概率矩阵
通过矩阵均分概率的方式或首元素获取全部概率的方式生成初始概率矩阵;
其中,所述的矩阵均分概率是将数值1/n分别赋值给零矩阵M中的每个元素;所述的首元素获取全部概率是将概率“1”赋值给零矩阵M中的首个元素;
(5)PageRank计算
获取到关系矩阵、初始概率矩阵以及阻尼系数后,按如下公式计算网页PR值:其中,Mpi是所有对pi网页有出链的网页集合,L(pj)是网页pj的出链数目,N是网页总数,α取0.85;
上述步骤循环迭代计算直至概率矩阵收敛终止迭代;
其中,所述概率矩阵收敛终止迭代的条件包括:每次迭代过程中,对网页权重高的前
100个文档聚类,然后分别使用tf‑idf方法提取种子网页的特征向量和所爬取网页的锚文本的特征向量,然后计算二者的余弦相似度,将其作为锚文本聚合度;若聚合度低于给定阈值,则迭代终止;
或,所述概率矩阵收敛终止迭代的条件为:前后两次迭代误差低于0.001。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中,先确定并输入爬取网页的数量,系统检测数量是否在规定范围内,若爬取网页的数量超出范围,则不进行爬取,并给出提示信息;
若爬取网页的数量在规定范围内,则进行网站的爬取。
3.根据权利要求2所述的方法,其特征在于,步骤(2)中,在获取网页间关系之前,先检测是否已经爬取网页,若网页未爬取,则使用初始化的网页间关系,并将该初始化的网页间关系直接存储至link_list的二维字典中。
4.一种应用权利要求1‑3任意一项所述网络爬虫方法的网络爬虫系统,其特征在于,包括:
PageRank算法子系统,用于获取网页间访问关系,将网页间访问关系转换为关系矩阵,以及网页权重的计算;
文件Menu子系统,其用于所述PageRank算法子系统计算结果的显示:包括网页展示和网页访问关系可视化;
功能Menu子系统,其包括百度百科检索、网页爬虫、图片下载以及图片查看。
5.根据权利要求4所述的网络爬虫系统,其特征在于,所述功能Menu子系统中的网页爬虫包括随机爬取和时间控制爬取。