1.一种基于模板匹配实现快速页码识别的方法,其特征在于,包括以下步骤:
步骤1:待检测的页码图像f′(x,y)预处理得到待匹配页码图像fi′(x,y),判断是否存在页码数字模板,如存在页码数字模板,则跳过步骤2直接执行步骤3,如不存在页码数字模板,先执行步骤2再执行步骤3;
步骤2:所需的数字0-9的模版图像经过步骤1中所述的预处理得到M×N大小的页码数字模板gjk(x,y);
步骤3:判断待匹配页码图像fi′(x,y)是否存在粘连情况,如存在粘连情况,则将待检测页码图像fi′(x,y)高度拉伸至M宽度等比例拉伸再进行分割并排序并宽度加宽至N大小的分割后序列图像gi′(x,y)再继续执行步骤4,如没有存在粘连情况,则直接归一化处理得到M×N大小的待匹配页码图像fi′(x,y)再执行步骤4;
步骤4:将经过步骤3处理后的分割后序列图像gi′(x,y)或待匹配页码图像fi′(x,y)与页码数字模板gjk(x,y)进行匹配,得到对应数字xi,将对应数字xi依次排列得到页码图像f′(x,y)最终的页码值x1x2…xi。
2.如权利要求1所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,还包括步骤5,具体为:将页码图像f′(x,y)最终的页码值x1x2…xi与其前一页页码值x1′x2′…xi′进行对比验证:x1x2…xi-x1′x2′…xi′=1
如满足上式,则说明页码识别正确。
3.如权利要求1所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤3具体为:检测待匹配页码图像fi′(x,y)的宽度和高度,得到宽度与高度的比例值α,若α<1,则没有发生页码数字粘连,待匹配页码图像fi′(x,y)直接归一化处理得到M×N大小再执行步骤
4;
若α>1,则存在页码数字粘连的情况,则将待匹配页码图像fi′(x,y)图像高度拉伸到统一的高度为M,宽度等比例拉伸,再将其从宽度方向正中间进行分割并从左到右进行排序并宽度增加至N得到分割后序列图像gi′(x,y),再继续执行步骤4。
4.如权利要求1所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤1的预处理具体为:步骤1.1:选取页码位置符合要求的待检测书页原始图像读入初始图像f(x,y),将初始图像f(x,y)中的页码部分分割出来为页码图像f′(x,y),再转化为灰度图像f′gray(x,y);
步骤1.2:将步骤1处理得到的灰度图像f′gray(x,y)进行最小值滤波得到滤波后图像f′pre(x,y);
步骤1.3:将步骤2处理得到的滤波后图像f′pre(x,y)使用OTSU自动阈值分割法进行二值化得到二值化图像f′binary(x,y);
步骤1.4:将二值化图像f′binary(x,y)进行取反操作,提取单个数字字符的最小包含矩形得到待检测页码图像fi′(x,y)。
5.如权利要求1所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤1.1中转化为灰度图像f′gray(x,y)的具体步骤为:将页码图像f′(x,y)转换成灰度图像f′gray(x,y),其中灰度图像f′gray(x,y)的每个像素点的灰度值的公式如下:其中,Rf(x,y)表示页码图像f′(x,y)红色通道每个像素点的像素值;Gf(x,y)表示页码图像f′(x,y)绿色通道每个像素点的像素值;Bf(x,y)表示页码图像f′(x,y)蓝色通道每个像素点的像素值,(x,y)表示初始图像的每个像素点。
6.如权利要求4所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤1.2中灰度图像f′gray(x,y)进行最小值滤波得到滤波后图像f′pre(x,y)的具体步骤为:将灰度图像f′gray(x,y)以一个1×2的横向模板以及一个2×1的纵向模板进行两次最小值滤波:遍历f′gray(x,y)中的每一个像素(x0,y0),比较f′gray(x0,y0)和f′gray(x0,y0+1),若不存在(x0,y0+1),则认为f′gray(x0,y0+1)=255,令:f′gray(x0,y0)=min(f′gray(x0,y0),fgray(x0,y0+1))遍历f′gray(x,y)中的每一个像素(x0,y0),比较像素值f′gray(x0,y0)和f′gray(x0+1,y0),若不存在(x0+1,y0),则认为f′gray(x0+1,y0)=255,令:f′gray(x0,y0)=min((f′gray(x0,y0),f′gray(x0+1,y0))。
7.如权利要求4所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤1.3的具体为:计算灰度图像f′gray(x,y)的灰度平均值,设为
对于灰度值t(0≤t≤255),遍历f′gray(x,y)的所有像素点,将所有点分成两部分,分别为灰度值小于等于t的像素点集合A和灰度值大于t的像素点集合B;
分别计算A和B中的点占所有像素点的数目占所有像素点的数目的比例,记为PA和PB,再计算A和B像素点的平均像素值,记为 和 计算类间方差ICVt:依次令t=1,2,3…255,得到所有的ICVt,比较其结果,当 时,t0就是得到的最佳灰度阈值,以t0为阈值,将灰度图像f′gray(x,y)转化为灰度图像二值化图像f′binary(x,y)。
8.如权利要求4所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤1.4具体为:从二值化图像f′binary(x,y)中提取连通分量:从二值化图像f′binary(x,y)左上方开始遍历像素点,寻找连通分量,遍历像素点的顺序是从左往右遍历每一列,每一列中则从上往下遍历,完成一列后跳到下一列的最上方,直到遍历完所有像素;
对于像素点,若该点像素值为0,则完成该点的访问,若该点像素值不为0,则依次访问该点的8领域,寻找是否有像素值不为0的点,对于像素值不为0的点,则进一步访问该点的8领域,不断访问该点扩散出来的像素不为0的点的8领域,直到所有点像素值为0,标记所有访问过的点,完成对该点的搜索,若该点扩散出来的像素为0的点数超过50个,则判断该点属于某个数字字符连通分量,记录该点为Pi,i从1开始递增,Pi表示第i个连通分量的种子点;
对于Pi,记录连通分量中的点的高度方向的上的最大坐标最小坐标,宽度方向的最大坐标最小坐标,生成一个包围该连通分量的最小矩形并记录为待匹配页码图像fi′(x,y)。
9.如权利要求1所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,所述步骤4具体为:将分割后序列图像gi′(x,y)或待匹配页码图像f′i(x,y)与数字模板gjk(x,y)进行匹配,对gjk(x,y)和分割后序列图像gi′(x,y)或待匹配页码图像f′i(x,y)的对应点做相与,结果为1的点数目为A,再对gjk(x,y)和分割后序列图像gi′(x,y)或待匹配页码图像f′i(x,y)的点做或运算,得到的值为0的点数目为B,最后得到gjk(x,y)和分割后序列图像gi′(x,y)或待匹配页码图像f′i(x,y)的匹配度ljk;
ljk=A+B
当 匹配成功,则将fi′(x,y)识别为j0,分割后序列图像gi′(x,y)或待匹配页码图像fi′(x,y)页码对应数字xi=j0。
10.如权利要求1-9任一所述的一种基于模板匹配实现快速页码识别的方法,其特征在于,M取值为90,N取值为50。