1.一种网页页面信息的提取方法,其特征在于,包括:
获取多个待提取网页页面的超文本标记语言HTML代码;
根据所述HTML代码对多个所述待提取网页页面进行聚类,得到多个归属类别;
提取每个所述归属类别中的目标块元素,其中,所述目标块元素为同一所述归属类别中的不同所述待提取网页页面共有的块元素;
提取所述目标块元素中的文本,得到所述目标块元素的文本集合;
计算所述文本集合的指标值,其中,所述指标值用于表示所述文本集合中的文本的差异程度;以及提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信息。
2.根据权利要求1所述的提取方法,其特征在于,计算所述文本集合的指标值包括:记录所述文本集合中的每个不相同的文本的出现次数;
根据每个所述不相同的文本的出现次数,确定所述文本集合中全部文本的总出现次数;
根据每个所述不相同的文本的出现次数和所述总出现次数,计算每个所述不相同的文本在所述文本集合中的出现频率;以及根据每个所述不相同的文本在所述文本集合中的所述出现频率,确定所述文本集合的指标值。
3.根据权利要求2所述的提取方法,其特征在于,根据每个所述不相同的文本在所述文本集合中的所述出现频率,确定所述文本集合的指标值包括:按照公式 计算所述文本集合的指标值,其
中,ESet为所述文本集合的指标值,m为所述文本集合中包含所述不相同的文本的个数,p(texti)为每个所述不相同的文本在所述文本集合中的出现频率。
4.根据权利要求1所述的提取方法,其特征在于,在提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信息之后,所述提取方法还包括:记录所述文本的类别属性。
5.根据权利要求1所述的提取方法,其特征在于,通过以下方式确定第一待提取网页页面和第二待提取页面的归属类别,其中,所述第一待提取网页页面和所述第二待提取页面为多个所述待提取页面中的任意两个待提取网页页面:根据所述第一待提取网页页面的HTML代码建立第一树形结构,并根据所述第二待提取网页页面的HTML代码建立第二树形结构;
提取所述第一树形结构中包含预设属性的块元素,得到第一块元素,以及提取所述第二树形结构中包含预设属性的块元素,得到第二块元素;
根据所述第一块元素和所述第二块元素,计算所述第一待提取网页页面和所述第二待提取网页页面的相似度平均值;
比较所述相似度平均值和第二预设阈值的大小;以及
在比较出所述相似度平均值大于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面为相同归属类别,或在比较出所述相似度平均值小于或等于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面分别为不同的归属类别。
6.一种网页页面信息的提取装置,其特征在于,包括:
获取单元,用于获取多个待提取网页页面的超文本标记语言HTML代码;
聚类单元,用于根据所述HTML代码对多个所述待提取网页页面进行聚类,得到多个归属类别;
第一提取单元,用于提取每个所述归属类别中的目标块元素,其中,所述目标块元素为同一所述归属类别中的不同所述待提取网页页面共有的块元素;
第二提取单元,用于提取所述目标块元素中的文本,得到所述目标块元素的文本集合;
第一计算单元,用于计算所述文本集合的指标值,其中,所述指标值用于表示所述文本集合中的文本的差异程度;以及第三提取单元,用于提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信息。
7.根据权利要求6所述的提取装置,其特征在于,所述第一计算单元包括:记录模块,用于记录所述文本集合中的每个不相同的文本的出现次数;
第一确定模块,用于根据每个所述不相同的文本的出现次数,确定所述文本集合中全部文本的总出现次数;
计算模块,用于根据每个所述不相同的文本的出现次数和所述总出现次数,计算每个所述不相同的文本在所述文本集合中的出现频率;以及第二确定模块,用于根据每个所述不相同的文本在所述文本集合中的所述出现频率,确定所述文本集合的指标值。
8.根据权利要求7所述的提取装置,其特征在于,所述第二确定模块包括:计算子模块,用于按照公式 计算所述文本集
合的指标值,其中,ESet为所述文本集合的指标值,m为所述文本集合中包含所述不相同的文本的个数,p(texti)为每个所述不相同的文本在所述文本集合中的出现频率。
9.根据权利要求6所述的提取装置,其特征在于,所述提取装置还包括:记录单元,用于在提取所述指标值大于第一预设阈值的所述文本集合中的文本,得到所述网页页面信息之后,记录所述文本的类别属性。
10.根据权利要求6所述的提取装置,其特征在于,所述提取装置还包括:建立单元,用于根据第一待提取网页页面的HTML代码建立第一树形结构,并根据第二待提取网页页面的HTML代码建立第二树形结构,其中,所述第一待提取网页页面和所述第二待提取页面为多个所述待提取页面中的任意两个待提取网页页面:第四提取单元,用于提取所述第一树形结构中包含预设属性的块元素,得到第一块元素,以及提取所述第二树形结构中包含预设属性的块元素,得到第二块元素;
第二计算单元,用于根据所述第一块元素和所述第二块元素,计算所述第一待提取网页页面和所述第二待提取网页页面的相似度平均值;
比较单元,用于比较所述相似度平均值和第二预设阈值的大小;以及处理单元,用于在比较出所述相似度平均值大于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面为相同归属类别,或在比较出所述相似度平均值小于或等于所述第二预设阈值的情况下,确定所述第一待提取网页页面和所述第二待提取页面分别为不同的归属类别。