利索能及
我要发布
收藏
专利号: 2017106015396
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于词汇关键度的网络论坛正文提取方法,其特征在于,包括:抽取数据集中部分主题帖页面样本,去除非正文部分,对剩余内容进行分词,计算所有词汇的关键度,定位关键度最高的部分词汇所在位置,引导提取数据集中剩余主题帖页面的正文,若正文内容正确则输出正文,若不正确,则从抽取数据集中部分主题帖页面样本开始重新处理;

所述去除非正文部分包括:

去除主题帖页面中显著的非正文内容;根据停用词库排除主题帖页面中无关内容;根据相似规则去除主题帖页面中不应被包含在正文中的内容。

2.根据权利要求1所述的方法,其特征在于,去除主题帖页面中显著的非正文内容包括:去除主题帖页面源码中的标签及其内容,所述标签至少包括:、