1.一种页面类型甄别方法,其特征在于,所述方法包括:对目标URL进行静态抓取得到第一页面;
对所述目标URL进行动态抓取得到第二页面;
移除所述第一页面及所述第二页面中所包含的噪声内容;
计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度;
判断所述页面相似度是否大于预设相似度;
若所述页面相似度大于所述预设相似度,则标记所述目标URL对应的页面为静态页面;
及
若所述页面相似度不大于所述预设相似度,则标记所述目标URL对应的页面为动态页面;
其中,所述计算经过噪声移除处理的第一页面与经过噪声移除处理的第二页面之间的页面相似度的步骤包括:对经过噪声移除处理的第一页面及第二页面进行页面分解,以分别构建第一正文结构树及第二正文结构树;
提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,其中所述自然段为正文结构树的底层节点;
基于所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串,计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率;及根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度;
所述提取所述第一正文结构树中的每一自然段的特征串及所述第二正文结构树中的每一自然段的特征串的步骤包括:提取所述自然段中的句子的首尾字符或汉字作为所述句子的特征码;及基于所述自然段中的所有句子的特征码构建所述自然段的特征串;
所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤包括:利用布隆过滤器对所述第一正文结构树的第一自然段的特征串的每一特征码进行转换,得到多个第一比特串;
利用所述布隆过滤器对所述第二正文结构树的第二自然段的特征串的每一特征码进行转换,得到多个第二比特串,其中所述第一自然段与所述第二自然段为同层级的自然段;
统计所述第一比特串与所述第二比特串的相同个数;及基于统计得到的相同个数计算得到所述特征串重合率。
2.如权利要求1所述的方法,其特征在于,所述噪声内容至少包括以下的一种或多种:导航条、广告条、超链接、网站底部。
3.如权利要求1所述的方法,其特征在于,所述对经过噪声移除处理的第一页面及第二页面进行页面分解的步骤包括:对经过噪声移除处理的第一页面及第二页面按照预设的标签顺序进行逐层分解,直至分解至段落或纯文本。
4.如权利要求1所述的方法,其特征在于,所述第一正文结构树中的每一自然段及所述第二正文结构树中的每一自然段按照预先权重定义规则定义有对应的权重值,所述计算所述第一正文结构树与所述第二正文结构树之间的每一对同层级自然段的特征串重合率的步骤之后还包括:基于计算得到的特征串重合率及该对同层级自然段的权重值计算得到该对同层级自然段的加权特征串重合率。
5.如权利要求4所述的方法,其特征在于,所述根据计算得到的所有特征串重合率计算得到所述第一页面与所述第二页面的页面相似度的步骤包括:根据计算得到的所有加权特征串重合率计算得到所述第一页面与所述第二页面的页面相似度。
6.一种页面类型甄别装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1‑5任一项所述的页面类型甄别方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1‑5任一项所述的页面类型甄别方法的步骤。