1.一种基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:在一幅包含手写体和印刷体的文档图像中,手写体粗细均匀,而印刷体的粗细变化大,从而利用笔画粗细的统计特性区分印刷体和手写体,通过统计邻域内边缘像素数目获得笔画粗细的特征,再结合版面分析将图像文档分割为粗细均匀的区域,然后计算这些区域内笔画粗细的统计特征,最后使用SVM判断手写体与印刷体类别,具体包括以下步骤:
001,文档图像预处理:将文档图像进行灰度校正、颜色过滤;
002,计算笔画的粗细:统计一个区域中出现的边缘像素数目得出笔画的粗细;
003,将文档图像分割成判断区域:利用笔画粗细的特征结合版面分析,将文档图像分割成比文本行单位小且比字符单位大的判断区域;
004,区域判断:统计判断区域中字符宽、高、间隔,以及笔画粗细的方差,使用线性SVM分类,当宽的方差、高的方差、间隔的方差小而笔画粗细的方差较大时判断为印刷体,否则为手写体;
所述步骤002中的笔画粗细的计算方法包括如下步骤:
201:获得文档图像的边缘:所述获得文档图像的边缘为8连通;所述8连通是指以定点像素(x,y)为中心,其周围上下左右和两条对角线上的8个像素组成的8邻域;所述文档图像的边缘点是由像素灰度值及其相邻像素的灰度值来确定的;
202:计算细笔画:所述细笔画的边缘像素i*i邻域中只有边缘和背景;定义F是笔画的粗细值,则此类细笔画的粗细值 其中,Ni是i*i邻域内边缘像素的数量,当周围所含边缘像素数目Ni为i时,此时笔画粗细为1;
203:计算粗笔画:首先对粗笔画进行形态学的腐蚀操作,每次使用半径为1的圆结构腐蚀,循环腐蚀操作j次,直至处理后的笔画的边缘像素i*i邻域中只有边缘和背景,此时笔画粗细按照步骤202中的公式 进行计算,所得的笔画粗细值为2*j+F。
2.根据权利要求1所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述步骤203还包括,在计算粗笔画前,先将图像缩小为原来的1/n,然后再进行形态学的腐蚀操作和计算笔画粗细值,以减少计算次数,最后所得的笔画值应为计算值的n倍。
3.根据权利要求1所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述预处理中的灰度校正是采用双阈值二值化方法,以处理扫描或者拍照方式获得的文档图像存在光照不均匀的情况;所述颜色过滤是去除黑色之外的其他颜色。
4.根据权利要求1所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述i=3。
5.根据权利要求1所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述腐蚀操作过程为:
501:扫描文本图像,找到第一个笔画内部的目标像素点;
502:用半径为1的圆结构覆盖目标像素点;
503:判断该半径为1的圆结构所覆盖范围内的像素是否全部为1:如果是,则腐蚀后的文本图像中的相同位置的像素值为1;如果不是,则腐蚀后的文本图像中的相同位置的像素值为0;
504:重复步骤502和503,直至所有文本图像中的像素处理完成。
6.根据权利要求2所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述n=4。
7.根据权利要求3所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述双阈值二值化方法包括高低两个阈值,所述高低阈值分别为60和20。
8.根据权利要求1所述的基于笔画粗细的手写体与印刷体的鉴别方法,其特征在于:所述步骤002中还包括,在计算笔画的粗细后,再采用卷积神经网络提取笔画隐含的本质特征。