买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种面向文献的表格信息抽取方法

利索能及专利检索

电话：15618600796

登录 / 免费注册利索能及授权登录

利索能及

查出售查求购

我要发布

专利交易专利求购

收藏

一种面向文献的表格信息抽取方法

￥31200

专利号： 2021107368832

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种面向文献的表格信息抽取方法，其特征在于：包括以下步骤：步骤1：利用规则获取所有可能含表格的候选页面；

步骤2：将步骤1中获取的页面转化为图片文件；

步骤3：采用深度学习方法，获取步骤2中图片文件的特征；

步骤4：根据步骤3中获取的图片文件的特征，对图片进行特征融合；获取融合后的特征；

步骤5：根据步骤4中获取的特征融合后的特征，对表格的位置进行初步定位；

步骤6：针对步骤5获得的表格定位信息，根据表格元素的长宽关系，将横板表格旋转为竖版表格；

步骤7：根据步骤6中获得的竖版表格，读取单元格字符流。

2.根据权利要求1所述的一种面向文献的表格信息抽取方法，其特征在于：步骤3的具体过程如下：

首先用凯明正态分布初始化神经网络中的权重，然后将图片矢量化，最终将矢量化后的图片作为输入参数传入残差神经网络，获取特征图。

3.根据权利要求1所述的一种面向文献的表格信息抽取方法，其特征在于：步骤7的具体过程如下：

对于已经旋转为竖版表格，计算每个元素的中线和边线的坐标，如果中线和边线的横竖坐标相同，则定位成单元格，并读取该位置的元素，将其转化为CSV文件。

推荐专利

一种文献信息采集用笔

基于NLP信息萃取与词性规则的沉积学文献挖掘方法

一种基于NER模型基因文献信息提取方法、系统及存储介质

一种面向中文文本的端到端中文实体关系联合抽取方法

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售