利索能及
我要发布
收藏
专利号: 2020115608636
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-26
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种自适应结构化的文档抽取方法,其特征在于首先从互联网中采集原始网页并存储,然后对采集到的原始网页中的原文进行通用无意义清洗,接下来根据Xpath定位网页中的元素,自动对比抽取出网页中有价值的内容,最后将抽取到的内容按照结构化的格式存储起来;通过改进的抽取规则实现不需要先验知识和人工标注数据,而是通过挖掘网页之间的语义相似性,自动生成适用的抽取模式。

2.根据权利要求1所述的一种自适应结构化的文档抽取方法,其特征在于包括如下步骤:

步骤1:根据指定的网页地址从互联网采集公开原始网页,并获得原始网页的文档内容;

步骤2:将步骤1抽取的文档内容存储到数据库中;存储时同步存储文档内容对应的url;

步骤3:对文档内容进行清洗;

步骤4:对清洗后的文档内容进行自适应抽取;

步骤5:实现抽取结果的字段对齐,存储抽取结果,将抽取结果进行整合后存入数据库中,确保数据库中信息的一致性和完整性。

3.根据权利要求2所述的一种自适应结构化的文档抽取方法,其特征在于步骤1具体实现如下:

1‑1所述网页地址即url链接网址,是因特网上标准的资源地址,用于定位互联网上的资源,以获得指定网页的文档内容;

1‑2通过url获得对应网页全部的文档内容。

4.根据权利要求3所述的一种自适应结构化的文档抽取方法,其特征在于步骤3具体实现如下:

3‑1对于文档内容中与主题内容无关的节点进行清除,所述的节点包括标签;

3‑2清除注释、脚本语言