利索能及
我要发布
收藏
专利号: 2021105845339
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.光学字符快速识别方法,其特征是,包括:

获取待处理图像;对待处理图像进行预处理;具体包括:将待处理图像的长和宽均处理成N的倍数,N为设定值,N为整数;得到第一处理图像;对第一处理图像进行降采样处理,得到第二处理图像;对第二处理图像进行标准化处理Normalization,得到标准化处理后的图像;

将预处理后的图像进行文本检测,得到含有矩形文字包围框的图像;

对矩形文字包围框内的矩形文字区域进行文本识别,得到识别文本;

对识别后的文本进行文本规整,得到规整后的文本;具体包括:(1)对识别出的所有文本特征,提取每一列所有识别文本特征中每个识别文本特征的横坐标;其中,以整个图像左上角的点作为坐标原点,以水平方向作为坐标横轴,以垂直方向作为坐标纵轴,将每个识别文本特征的矩形文字包围框的左上角点在整个图像内的横坐标,作为当前识别文本特征的横坐标;

(2)给定第一阈值;按照从上往下顺序提取每一列的相邻两行的识别文本特征;

(3)判断每一列中相邻两行两个识别文本特征的横坐标差值是否大于设定第一阈值,若大于,则回到(2);否则,保存每一列的识别文本特征以及其纵坐标;然后进入(4);

(4):得到各列项的文本数据以后,提取每一行所有识别文本特征中每个识别文本特征的纵坐标;

(5):给定第二阈值,并按照从左到右的顺序,依次选取(3)所保存的每一行的相邻两列的识别文本特征;

(6):判断每一行中相邻两个识别文本特征的纵坐标差是否大于第二阈值,若大于则回到(5),否则保存组合后的各横行文本数据;

对规整后的文本,进行文本纠正,得到最终光学字符识别结果;具体包括:将识别出的文本数据,与数据库中的文本之间的莱文斯坦比;其中,所述数据库中预存储若干个文本数据;

判断莱文斯坦比是否超出设定阈值;如果超出设定阈值,则将莱文斯坦比最大值对应的数据库中的文本作为最匹配文本输出;

如果小于设定阈值,则将识别出的文本作为新的文本补充到数据库中。

2.如权利要求1所述的光学字符快速识别方法,其特征是,将预处理后的图像进行文本检测,得到含有矩形文字包围框的图像;具体包括:采用Differentiable Binarization文本检测算法,对预处理后的图像进行文本检测,得到含有矩形文字包围框的图像。

3.如权利要求1所述的光学字符快速识别方法,其特征是,对矩形文字包围框内的矩形文字区域进行文本识别,得到识别文本;具体包括:采用训练后的CRNN网络模型,对矩形文字包围框内的矩形文字区域进行文本识别,得到文本识别结果;

所述文本识别结果,包括若干个识别文本特征,每个识别文本特征,包括:数字、数值范围或由文字组成的词汇。

4.如权利要求1所述的光学字符快速识别方法,其特征是,对第一处理图像进行降采样处理,得到第二处理图像;具体包括:对第一处理图像进行五次两倍降采样处理。

5.光学字符快速识别系统,其特征是,包括:

预处理模块,其被配置为:获取待处理图像;对待处理图像进行预处理;具体包括:将待处理图像的长和宽均处理成N的倍数,N为设定值,N为整数;得到第一处理图像;对第一处理图像进行降采样处理,得到第二处理图像;对第二处理图像进行标准化处理Normalization,得到标准化处理后的图像;

文本检测模块,其被配置为:将预处理后的图像进行文本检测,得到含有矩形文字包围框的图像;

文本识别模块,其被配置为:对矩形文字包围框内的矩形文字区域进行文本识别,得到识别文本;

文本规整模块,其被配置为:对识别后的文本进行文本规整,得到规整后的文本;具体包括:(1)对识别出的所有文本特征,提取每一列所有识别文本特征中每个识别文本特征的横坐标;其中,以整个图像左上角的点作为坐标原点,以水平方向作为坐标横轴,以垂直方向作为坐标纵轴,将每个识别文本特征的矩形文字包围框的左上角点在整个图像内的横坐标,作为当前识别文本特征的横坐标;

(2)给定第一阈值;按照从上往下顺序提取每一列的相邻两行的识别文本特征;

(3)判断每一列中相邻两行两个识别文本特征的横坐标差值是否大于设定第一阈值,若大于,则回到(2);否则,保存每一列的识别文本特征以及其纵坐标;然后进入(4);

(4):得到各列项的文本数据以后,提取每一行所有识别文本特征中每个识别文本特征的纵坐标;

(5):给定第二阈值,并按照从左到右的顺序,依次选取(3)所保存的每一行的相邻两列的识别文本特征;

(6):判断每一行中相邻两个识别文本特征的纵坐标差是否大于第二阈值,若大于则回到(5),否则保存组合后的各横行文本数据;

文本纠正模块,其被配置为:对规整后的文本,进行文本纠正,得到最终光学字符识别结果;具体包括:将识别出的文本数据,与数据库中的文本之间的莱文斯坦比;其中,所述数据库中预存储若干个文本数据;

判断莱文斯坦比是否超出设定阈值;如果超出设定阈值,则将莱文斯坦比最大值对应的数据库中的文本作为最匹配文本输出;

如果小于设定阈值,则将识别出的文本作为新的文本补充到数据库中。

6.一种电子设备,其特征是,包括:

存储器,用于非暂时性存储计算机可读指令;以及

处理器,用于运行所述计算机可读指令,

其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1‑4任一项所述的方法。

7.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1‑4任一项所述方法的指令。