1.基于神经网络和模板匹配的标准文件信息提取方法,其特征在于包括如下步骤:S1.获取目标识别图片,将图片输入到ocr模型中将图片中的文字识别成包含待提取关键指标信息文本,其中关键指标信息包括指标中文名、指标英文名、指标定义信息;
S2.根据预先设定的标题类别选择不同的规则模板将标识唯一的信息匹配,将某一指标同类信息归类后用一个数组存储;
S3.将归类后的数组结构化,将结果数据组按照术语标题、术语中文名、术语英文名、术语分类,形成结构化数据并存储;
S4.根据所述规则模板和结构化的文本数据,将结构化后的文本数据使用一个表格组件显示,所述表格组件包括数据显示、数据编辑、新建/删除数据、导出为excel格式文件功能。
2.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,所述的目标为pdf文件,将目标pdf文件拆分成多页图片,得到多张可选目标图片,图片为png格式或jpg格式。
3.根据权利要求2所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,将pdf文件按页拆分为若干个子文件;将若干个子文件转为png格式高清图片。
4.根据权利要求3所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,步骤S1中,将每一帧目标图片输入到预设ocr模型中得到该目标图片中的所有文字,遍历识别后的每一行文字,将两两位置余弦夹角小于设定阈值的文字归为同一行,两向量余弦夹角计算公式为:。
5.根据权利要求4所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,图片包含待识别文本,与识别无关的文字、表格均不应包含在内;若某一指标一张图无法完全包括全部内容则应将超出部分单独识别;对于表格结构重建所截图部分只应包含表格,对于多个表格如果一张图能完全覆盖那么可以放在一张图中,如果不能覆盖则必须分多次提取。
6.根据权利要求2或5所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,文字识别具体步骤包括:
S11.图像归一化,固定图像宽度不变,将高度缩放为32像素,其中图像的缩放计算公式为:· ·
式中,S是旋转矩阵, 分别是x轴、y轴方向上的缩放系数, 是缩放点;
S12.获取特征图,使用卷积神经网络将图像处理成512通道数的特征图;
S13.将特征图转为维度为512的特征向量;
S14.将特征输入到BiLSTM模型中,对每一个特征向量预测出相应标签分布向量;
S15.使用条件随机场模型得到最优字符序列输出,其中对于所有可能概率中的最佳标签序列由viterbi算法计算,过程如下,输入:模型 (A,B, )和观测矩阵O = ( ,..., )输出:最优路径 =( ,..., )
(1)初始化
...N
(2)递推,对t = 2,3,...T
(i) = max[ ] ( )(1 ),i = 1,2,...N(1 ),i = 1,2,...N
(3)终止
(1 )
(4)最优路径回溯,对t=T‑1,T‑2,...1,有 =
因此求得最优路径 = ( , ),
其中,A,B,分别表示状态转移概率矩阵,初始状态概率向量,观测概率矩阵,状态转移概率矩阵是一个n阶方阵,矩阵每一个值 表示从状态i转移到状态j的概率;
初始状态概率向量是一个n*1的向量,向量的每一列值表示初始时每个可能状态概率大小;
观测概率矩阵是一个N*M的矩阵,每一个值 表示t时刻处于i状态下生成观测状态j的概率,(i)是t时刻生成的状态值,依据此状态再结合状态转移矩阵可以计算下一状态概率值,是t时刻生成的路径,i代表顺序,取t时刻各个i的最大值max( )即可的t时刻输出路径。
7.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,步骤S2中,遍历识别结果的每一行,根据预设定的规则模板匹配如果该行与规则匹配,则将该行加入数组,指标类型包括:规范性技术要素、规范性一般要素、资料性要素、必备要素、可选要素。
8.根据权利要求1所述基于神经网络和模板匹配的标准文件信息提取方法,其特征在于,导出为excel格式文件时,将数组转为excel文件所需sheet格式,将sheet转换成Blod二进制流,进行加密传输,加密时:S41.以二进制方式读取文件流;
S42.长度填充,使得比特长在模512下为448,即填充后的二进制位数为512的某一倍数减64;
S43.文件信息填充,步骤S2中空余的64比特位用于记录文件信息;
S44.初始化MD缓存区,使用128比特长的缓存区存储中间结果和最终哈希值;
S45.以分组为单位对二进制流进行处理,每一分组 都是经一压缩函数处理;
S46.获取加密后的结果,结果是加密后的二进制文件。
9.基于神经网络和模板匹配的标准文件信息提取系统,其特征在于包括:文件读取模块,从若干待选文件中选择感兴趣文件读取到字节数组中;
文字识别模块,将选中文件输入到预设ocr模型中识别出图片中关键信息,所述关键信息包括术语标题、术语英文名、术语中文名、术语定义;
位置归一化模块,将识别出的文本按照位置信息归类,对于某一文本框将右上角和右下角两点位置求得一向量,对于任意两向量如果夹角余弦值小于指定阈值则认为在同一行并将其存放到同一字符数组中;
指标分类模块,依次读取识别识别文字的每一行,若某行与预设术语开始部分规则模板匹配则认定为术语开始部分,将其加入到数组;如果不匹配则认定为术语其余部分将其与该术语开始部分合并;
指标结构化模块,遍历分类后的数组,如果该行文本能够匹配预设的若干术语提取规则将其定义为关键字段并提取;
数据显示模块,设置表格数据tableData,设置表格各列以及各列数据;设置表格高度以及表格边框,将结构化后的数据以表格形式显示,另外,对于识别并处理后的数据可能出现字符识别错误或归类错误,本模块实现了结果重编辑功能将错误更正;
文件导出模块,确认无误的结果通过本模块导出为excel或json文件,导出的文件可以二次编辑、复制、打印;
表格识别模块,将包含表格的图片文件输入到ocr模型中得到可编辑的excel表格。