利索能及
我要发布
收藏
专利号: 2020104314037
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像结构化数据提取方法,应用于电子装置,其特征在于,所述方法包括:

接收步骤:接收用户发出的提取图像结构化数据的请求,获取所述请求中携带的待提取结构化数据的原始图像;

识别步骤:将所述原始图像输入预先训练好的位置检测模型,得到所述原始图像中多个待识别区域的位置坐标信息,基于所述位置坐标信息对所述多个待识别区域进行切割,对切割后的待识别区域执行图像变换处理,将执行变换处理前及执行变换处理后的待识别区域,输入预先训练好的识别模型,得到各个所述待识别区域对应的初始识别结果,基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果;及提取步骤:利用预设算法计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度,选取最大相似度值对应的类别字符作为该待识别区域的类别结果,将各类别结果与目标识别结果填充至预设模板文件生成所述原始图像的结构化数据文件,并将所述结构化数据文件反馈至所述用户。

2.如权利要求1所述的图像结构化数据提取方法,其特征在于,所述对切割后的待识别区域执行图像变换处理包括:分别提取各个待识别区域的高维向量,将各所述高维向量分别与预设的低维向量库进行匹配,若匹配到对应的低维向量,则生成配对样本作为该待识别区域变换处理后的特征向量;

若未匹配到对应的低维向量,则选取所述低维向量库中预设的低维向量作为该待识别区域变换处理后的特征向量。

3.如权利要求1所述的图像结构化数据提取方法,其特征在于,所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括:分别读取各待识别区域的执行变换处理前的初始识别结果的置信度和执行变换处理后的初始识别结果的置信度,当执行变换处理前的初始识别结果的置信度大于或等于预设阈值时,将执行变换处理前的初始识别结果作为所述目标识别结果;

当执行变换处理前的初始识别结果的置信度小于预设阈值,且当执行变换处理后的初始识别结果的置信度大于执行变换处理前的初始识别结果的置信度时,将执行变换处理后的初始识别结果作为所述目标识别结果。

4.如权利要求1所述的图像结构化数据提取方法,其特征在于,所述提取步骤还包括:

验证各所述待识别区域的类别结果是否符合预设的验证条件,当所述待识别区域的类别结果不符合预设的验证条件时,基于该待识别区域的目标识别结果的字符分别构建正则表达式,将该正则表达式与预设词库中各类字符进行匹配,得到匹配结果作为该待识别区域的类别结果。

5.如权利要求1所述的图像结构化数据提取方法,其特征在于,所述对切割后的待识别区域执行图像变换处理还包括:对切割后的待识别区域执行上采样处理、亮度均衡处理或随机透视变换处理。

6.一种电子装置,该电子装置包括存储器及处理器,其特征在于,所述存储器上存储图像结构化数据提取程序,所述图像结构化数据提取程序被所述处理器执行,实现如下步骤:接收步骤:接收用户发出的提取图像结构化数据的请求,获取所述请求中携带的待提取结构化数据的原始图像;

识别步骤:将所述原始图像输入预先训练好的位置检测模型,得到所述原始图像中多个待识别区域的位置坐标信息,基于所述位置坐标信息对所述多个待识别区域进行切割,对切割后的待识别区域执行图像变换处理,将执行变换处理前及执行变换处理后的待识别区域,输入预先训练好的识别模型,得到各个所述待识别区域对应的初始识别结果,基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果;及提取步骤:利用预设算法计算各个待识别区域的目标识别结果对应的字符与预设词库中各类别的字符的相似度,选取最大相似度值对应的类别字符作为该待识别区域的类别结果,将各类别结果与目标识别结果填充至预设模板文件生成所述原始图像的结构化数据文件,并将所述结构化数据文件反馈至所述用户。

7.如权利要求6所述的电子装置,其特征在于,所述对切割后的待识别区域执行图像变换处理包括:

分别提取各个待识别区域的高维向量,将各所述高维向量分别与预设的低维向量库进行匹配,若匹配到对应的低维向量,则生成配对样本作为该待识别区域变换处理后的特征向量;

若未匹配到对应的低维向量,则选取所述低维向量库中预设的低维向量作为该待识别区域变换处理后的特征向量。

8.如权利要求6所述的电子装置,其特征在于,所述基于预设筛选规则从各个所述初始识别结果中筛选中各个待识别区域对应的目标识别结果包括:分别读取各待识别区域的执行变换处理前的初始识别结果的置信度和执行变换处理后的初始识别结果的置信度,当执行变换处理前的初始识别结果的置信度大于或等于预设阈值时,将执行变换处理前的初始识别结果作为所述目标识别结果;

当执行变换处理前的初始识别结果的置信度小于预设阈值,且当执行变换处理后的初始识别结果的置信度大于执行变换处理前的初始识别结果的置信度时,将执行变换处理后的初始识别结果作为所述目标识别结果。

9.如权利要求8所述的电子装置,其特征在于,所述提取步骤还包括:

验证各所述待识别区域的类别结果是否符合预设的验证条件,当所述待识别区域的类别结果不符合预设的验证条件时,基于该待识别区域的目标识别结果的字符分别构建正则表达式,将该正则表达式与预设词库中各类字符进行匹配,得到匹配结果作为该待识别区域的类别结果。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括图像结构化数据提取程序,所述图像结构化数据提取程序被处理器执行时,实现如权利要求1至5中任一项所述图像结构化数据提取方法的步骤。