1.一种网页页面的正文提取方法,其特征在于,包括:
获取待提取网页页面的超文本标记语言HTML代码,并根据所述HTML代码建立所述待提取网页页面的树形结构;
提取所述树形结构的第一节点对应的第一元素和所述第一节点的父节点对应的第二元素,其中,所述第一节点为所述树形结构的叶子节点;
计算所述第一元素和所述第二元素的指标值,其中,所述指标值用于表示元素的信息量,所述指标值越大则所述元素的信息量越大;
获取所述指标值中最大指标值对应的元素,得到目标元素;以及
将所述目标元素包含的文本作为所述待提取网页页面的正文进行提取;
计算所述第一元素和所述第二元素的指标值包括:计算第一元素Gj的第一熵值Es1j和第一文本长度Ls1j,所述第一文本长度为第一元素包含的文本的字的个数,第一熵值是指第一元素中包含的文本的熵,反映第一元素包含的文本的信息密度,其中,j依次取1至n,n为所述第一节点的个数;按照公式I1j=Es1j*(Ls1j)2计算所述第一元素Gj的指标值I1j;
计算第二元素Ai的第二熵值Es2i和第二文本长度Ls2i,所述第二文本长度为第二元素包含的文本的字的个数,第二熵值是指第二元素中包含的文本的熵,反映第二元素包含的文本的信息密度,其中,i依次取1至w,w为所述第一节点的所述父节点的个数;以及按照公式I2i=Es2i*(Ls2i)2计算所述第二元素Ai的指标值I2i。
2.根据权利要求1所述的正文提取方法,其特征在于,按照公式
计算所述第一元素Gj的第一熵值Es1j,其中,S1j为所述第一元素Gj中的第一字符串,Ck1为第一字符串S1j中的字,k依次取1至q,q为所述第一字符串S1j中的字的个数,P(Ck1)为字Ck1在所述第一字符串S1j中出现的概率。
3.根据权利要求1所述的正文提取方法,其特征在于,按照公式
计算所述第二元素Ai的第二熵值Es2i,其中,S2i为所述第二元素Ai中的第二字符串,Ck2为第二字符串S2i中的字,i依次取1至p,p为所述第二字符串S2i中的字的个数,P(Ck2)为字Ck2在所述第二字符串S2i中出现的概率。
4.根据权利要求1所述的正文提取方法,其特征在于,提取所述树形结构中的第一节点对应的第一元素和所述第一节点的父节点对应的第二元素包括:判断所述第一节点对应的第一元素是否为块元素;以及
在判断出所述第一节点对应的第一元素为块元素的情况下,提取所述第一节点对应的第一元素和所述第一节点的父节点对应的第二元素。
5.一种网页页面的正文提取装置,其特征在于,包括:
第一获取单元,用于获取待提取网页页面的超文本标记语言HTML代码,并根据所述HTML代码建立所述待提取网页页面的树形结构;
第一提取单元,用于提取所述树形结构的第一节点对应的第一元素和所述第一节点的父节点对应的第二元素,其中,所述第一节点为所述树形结构的叶子节点;
计算单元,用于计算所述第一元素和所述第二元素的指标值,其中,所述指标值用于表示元素的信息量,所述指标值越大则所述元素的信息量越大;
第二获取单元,用于获取所述指标值中最大指标值对应的元素,得到目标元素;以及第二提取单元,用于将所述目标元素包含的文本作为所述待提取网页页面的正文进行提取;
所述计算单元包括:第一计算模块,用于计算第一元素Gj的第一熵值Es1j和第一文本长度Ls1j,所述第一文本长度为第一元素包含的文本的字的个数,第一熵值是指第一元素中包含的文本的熵,反映第一元素包含的文本的信息密度,其中,j依次取1至n,n为所述第一节点的个数;第二计算模块,用于按照公式I1j=Es1j*(Ls1j)2计算所述第一元素Gj的指标值I1j;第三计算模块,用于计算第二元素Ai的第二熵值Es2i和第二文本长度Ls2i,所述第二文本长度为第二元素包含的文本的字的个数,第二熵值是指第二元素中包含的文本的熵,反映了第二元素包含的文本的信息密度,其中,i依次取1至w,w为所述第一节点的所述父节点的个数;以及第四计算模块,用于按照公式I2i=Es2i*(Ls2i)2计算所述第二元素Ai的指标值I2i。
6.根据权利要求5所述的正文提取装置,其特征在于,所述第一计算模块包括:第一计算子模块,用于按照公式 计算所述第一元素Gj
的第一熵值Es1j,其中,S1j为所述第一元素Gj中的第一字符串,Ck1为第一字符串S1j中的字,k依次取1至q,q为所述第一字符串S1j中的字的个数,P(Ck1)为字Ck1在所述第一字符串S1j中出现的概率。
7.根据权利要求5所述的正文提取装置,其特征在于,所述第二计算模块包括:第二计算子模块,用于按照公式 计算所述第二元素Ai
的第二熵值Es2i,其中,S2i为所述第二元素Ai中的第二字符串,Ck2为第二字符串S2i中的字,i依次取1至p,p为所述第二字符串S2i中的字的个数,P(Ck2)为字Ck2在所述第二字符串S2i中出现的概率。
8.根据权利要求5所述的正文提取装置,其特征在于,所述第一提取单元包括:判断模块,用于判断所述第一节点对应的第一元素是否为块元素;以及
处理模块,用于在判断出所述第一节点对应的第一元素为块元素的情况下,提取所述第一节点对应的第一元素和所述第一节点的父节点对应的第二元素。