买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于神经网络和模板匹配的标准文件信息提取方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于神经网络和模板匹配的标准文件信息提取方法及系统

￥26400

专利号： 2022107320537

申请人：齐鲁工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-06-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于神经网络和模板匹配的标准文件信息提取方法，其特征在于包括如下步骤：S1.获取目标识别图片，将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本，其中关键指标信息包括指标中文名、指标英文名、指标定义信息；

S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配，将某一指标同类信息归类后用一个数组存储；

S3.将归类后的数组结构化，将结果数据组按照术语标题、术语中文名、术语英文名、术语分类，形成结构化数据并存储；

S4.根据所述规则模板和结构化的文本数据，将结构化后的文本数据使用一个表格组件显示，所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。

2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，所述的目标为pdf文件，将目标pdf文件拆分成多页图片，得到多张可选目标图片，图片为png格式或jpg格式。

3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，将pdf文件按页拆分为若干个子文件；将若干个子文件转为png格式高清图片。

4.根据权利要求3所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，步骤S1中，将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字，遍历识别后的每一行文字，将两两位置余弦夹角小于设定阈值的文字归为同一行，两向量余弦夹角计算公式为:。

5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，图片包含待识别文本，与识别无关的文字、表格均不应包含在内；若某一指标一张图无法完全包括全部内容则应将超出部分单独识别；对于表格结构重建所截图部分只应包含表格，对于多个表格如果一张图能完全覆盖那么可以放在一张图中，如果不能覆盖则必须分多次提取。

6.根据权利要求2或5所述基于神经网络和模板匹配的标准文件信息提取方法，其特征在于，文字识别具体步骤包括：

S11.图像归一化，固定图像宽度不变，将高度缩放为32像素，其中图像的缩放计算公式为：· ·

式中，S是旋转矩阵，分别是x轴、y轴方向上的缩放系数，是缩放点；

S12.获取特征图，使用卷积神经网络将图像处理成512通道数的特征图；

S13.将特征图转为维度为512的特征向量；

S14.将特征输入到BiLSTM模型中，对每一个特征向量预测出相应标签分布向量；

S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算，过程如下，输入：模型 (A,B, )和观测矩阵O = ( ,..., )输出：最优路径 =( ,..., )

(1)初始化

...N

(2)递推，对t = 2,3,...T

(i) = max[ ] ( )(1 ),i = 1,2,...N(1 ),i = 1,2,...N

(3)终止