1.一种网页页面的聚类方法,其特征在于,包括:
获取待比较网页页面的第一块元素;
根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值,其中,所述页面类别集合为已确定的页面类别的类别集合,所述第一块元素和所述第二块元素均包含预设属性;
当计算出所述待比较网页页面与当前页面类别的相似度指标值大于预设阈值时,将所述待比较网页页面归至所述当前页面类别,并更新所述当前页面类别包含的第二块元素得到所述当前页面类别的更新后页面类别,完成所述待比较网页页面的聚类;以及当所述待比较网页页面与所述页面类别集合中每个页面类别的相似度指标值均小于所述预设阈值时,将所述待比较网页页面作为一个新的页面类别添加到所述页面类别集合中;
其中,依次计算所述待比较网页页面与每个页面类别的相似度指标值包括:
获取所述待比较网页页面的第一块元素与页面类别Ai所含的第二块元素中的相同块元素Kij,其中,i用于指示当前参与计算的页面类别,取值依次为1至n,n为所述页面类别集合中页面类别的个数,j依次取1至mi,mi为所述页面类别Ai与所述待比较网页页面中相同块元素的个数;
根据相同块元素Ki1至相同块元素Kimi在所述待比较网页页面中的总出现频次和所述待比较网页页面中所述第一块元素的总出现频次,计算第一相似度S1i;
根据所述相同块元素Ki1至所述相同块元素Kimi在所述页面类别Ai中的总出现频次和所述页面类别Ai所含的所述第二块元素的总出现频次,计算第二相似度S2i;以及根据所述第一相似度S1i和所述第二相似度S2i计算所述相似度指标值Bi。
2.根据权利要求1所述的聚类方法,其特征在于,在根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值之前,所述聚类方法还包括:判断所述页面类别集合是否为空;
在判断所述页面类别集合为空的情况下,直接将所述待比较网页页面作为一个新的页面类别添加到所述页面类别集合中;以及在判断所述页面类别集合不为空的情况下,则根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值。
3.根据权利要求1所述的聚类方法,其特征在于,所述获取待比较网页页面的第一块元素包括:获取所述待比较网页页面的超文本标记语言HTML代码;
根据所述待比较网页页面的HTML代码建立树形结构;以及
提取所述树形结构中包含预设属性的块元素,得到所述待比较网页页面的所述第一块元素。
4.根据权利要求1所述的聚类方法,其特征在于,
按照公式 计算第一相似度S1i,其中,V1Kij为相同块元素Kij在所述待比较网页页面中的出现频次,K0k为所述待比较网页页面中的所述第一块元素,N1为所述待比较网页页面中所述第一块元素的个数, 为第一块元素K0k在所述待比较网页页面中的出现频次,按照公式 计算第二相似度S2i,其中,V2Kij为所述相同块元素Kij在所述页面类别Ai中的出现频次,Kik为所述页面类别Ai所含的所述第二块元素,Ni为所述页面类别Ai所含的所述第二块元素的个数, 为第二块元素Kik在所述页面类别Ai中的出现频次。
5.一种网页页面的聚类装置,其特征在于,包括:
获取单元,用于获取待比较网页页面的第一块元素;
计算单元,用于根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值,其中,所述页面类别集合为已确定的页面类别的类别集合,所述第一块元素和所述第二块元素均包含预设属性;
第一处理单元,用于当计算出所述待比较网页页面与当前页面类别的相似度指标值大于预设阈值时,将所述待比较网页页面归至所述当前页面类别,并更新所述当前页面类别包含的第二块元素得到所述当前页面类别的更新后页面类别,完成所述待比较网页页面的聚类;以及第二处理单元,用于当所述待比较网页页面与所述页面类别集合中每个页面类别的相似度指标值均小于所述预设阈值时,将所述待比较网页页面作为一个新的页面类别添加到所述页面类别集合中;
其中,所述计算单元包括:
第二获取模块,用于获取所述待比较网页页面的第一块元素与页面类别Ai所含的第二块元素中的相同块元素Kij,其中,i用于指示当前参与计算的页面类别,取值依次为1至n,n为所述页面类别集合中页面类别的个数,j依次取1至mi,mi为所述页面类别Ai与所述待比较网页页面中相同块元素的个数;
第一计算模块,用于根据相同块元素Ki1至相同块元素Kimi在所述待比较网页页面中的总出现频次和所述待比较网页页面中所述第一块元素的总出现频次,计算第一相似度S1i;
根据所述相同块元素Ki1至所述相同块元素Kimi在所述页面类别Ai中的总出现频次和所述页面类别Ai所含的所述第二块元素的总出现频次,计算第二相似度S2i;以及第二计算模块,用于根据所述第一相似度S1i和所述第二相似度S2i计算所述相似度指标值Bi。
6.根据权利要求5所述的聚类装置,其特征在于,所述聚类装置还包括:
判断单元,用于在根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值之前,判断所述页面类别集合是否为空;
第三处理单元,用于在判断所述页面类别集合为空的情况下,直接将所述待比较网页页面作为一个新的页面类别添加到所述页面类别集合中;以及第四处理单元,用于在判断所述页面类别集合不为空的情况下,则根据所述第一块元素与页面类别集合中每个页面类别所含的第二块元素,依次计算所述待比较网页页面与每个页面类别的相似度指标值。
7.根据权利要求5所述的聚类装置,其特征在于,所述获取单元包括:
第一获取模块,用于获取所述待比较网页页面的超文本标记语言HTML代码;
建立模块,用于根据所述待比较网页页面的HTML代码建立树形结构;以及提取模块,用于提取所述树形结构中包含预设属性的块元素,得到所述待比较网页页面的所述第一块元素。
8.根据权利要求5所述的聚类装置,其特征在于,所述第一计算模块包括:
计算子模块,用于按照公式 计算第一相似度S1i,其中,V1Kij为相同块元素Kij在所述待比较网页页面中的出现频次,K0k为所述待比较网页页面中的所述第一块元素,N1为所述待比较网页页面中所述第一块元素的个数, 为第一块元素K0k在所述待比较网页页面中的出现频次,按照公式 计算第二相似度S2i,其中,V2Kij为所述相同块元素Kij在所述页面类别Ai中的出现频次,Kik为所述页面类别Ai所含的所述第二块元素,Ni为所述页面类别Ai所含的所述第二块元素的个数, 为第二块元素Kik在所述页面类别Ai中的出现频次。