买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种自适应结构化的文档抽取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种自适应结构化的文档抽取方法

￥20400

专利号： 2020115608636

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-03-26

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种自适应结构化的文档抽取方法，其特征在于首先从互联网中采集原始网页并存储，然后对采集到的原始网页中的原文进行通用无意义清洗，接下来根据Xpath定位网页中的元素，自动对比抽取出网页中有价值的内容，最后将抽取到的内容按照结构化的格式存储起来；通过改进的抽取规则实现不需要先验知识和人工标注数据，而是通过挖掘网页之间的语义相似性，自动生成适用的抽取模式。

2.根据权利要求1所述的一种自适应结构化的文档抽取方法，其特征在于包括如下步骤：

步骤1：根据指定的网页地址从互联网采集公开原始网页，并获得原始网页的文档内容；

步骤2：将步骤1抽取的文档内容存储到数据库中；存储时同步存储文档内容对应的url；

步骤3：对文档内容进行清洗；

步骤4：对清洗后的文档内容进行自适应抽取；

步骤5：实现抽取结果的字段对齐，存储抽取结果，将抽取结果进行整合后存入数据库中，确保数据库中信息的一致性和完整性。

3.根据权利要求2所述的一种自适应结构化的文档抽取方法，其特征在于步骤1具体实现如下：

1‑1所述网页地址即url链接网址，是因特网上标准的资源地址，用于定位互联网上的资源，以获得指定网页的文档内容；

1‑2通过url获得对应网页全部的文档内容。

4.根据权利要求3所述的一种自适应结构化的文档抽取方法，其特征在于步骤3具体实现如下：

3‑1对于文档内容中与主题内容无关的节点进行清除，所述的节点包括、标签；

3‑2清除注释、脚本语言