1.一种基于词汇关键度的网络论坛正文提取方法,其特征在于,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理;
所述去除非正文部分包括:
去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。
2.根据权利要求1所述的方法,其特征在于,去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:
、