1.基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,所述方法包括如下步骤:S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;
S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;
S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测;
步骤S3具体包括如下步骤:
S31、采取形态学腐蚀操作对图像中的文本区域进行处理,减少字符笔画的粘连程度;
S32、采用基于连通分量的方法对文本区域进行检测,实现文本区域的初步筛选;
S33、采用基于回归式自切分的图像投影法进行二次切分实现粘贴字符的分割;
步骤S32中,首先将满足以下特征的连通区域定义为文本区域:公式(6)中,w,h分别表示图像的宽度和高度, 分别表示连通区域最小外接矩的宽度和高度;采用如下公式对文本区域进行筛选:公式(7)中,Den表示矩形框内黑色像素所占密度,N代表矩形框内黑色像素的总个数,分别代表连通域最小外接矩的高度和宽度;
步骤S33中,设L(X,Y)为某一连通区域图像的点阵,其中,X,Y分别表示连通域最小外接矩内的横纵坐标,WM为文字最大宽度,其中w为整个图像的宽度,回归范围为d,设第j个字符的起始位置为jA,采用回归式自切分方法实现列切分的具体流程如下:S311、在jA≤x≤jA+WM之间计算第一个 的点,设为jB,切出jA到jB之间的图像,其中 表示连通域最小外接矩的高度;
S312、若jB‑jA<δ,则认为是干扰噪声,忽略不计,否则转S314,其中δ为定常数;
S313、在jA+WM‑d≤x≤jA+WM 范围内求 的最小值jB;
S314、从jB做一条垂线作为文字的分割线,第j个字的宽度为jB‑jA;
S315、从jB开始计算 当值不为0且jA>jB时,jA即为第j+1个元素的左边界,然后重复执行以上的步骤。
2.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S2具体包括如下步骤:S21、去除图像中小的噪点;
S22、去除图像中的分割线、标点符号和图画装饰;
S23、将非文本区域连通域进行过滤。
3.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S21中,将面积小于20像素的连通域标记为小的噪点;连通域面积的计算方式为该连通域最小外接矩内像素点的个数,具体为令x,y分别表示图像的横纵坐标,设函数f(x,y)表示在二值图像中的像素点是否为图像的前景像素:然后,利用以下公式将像素点累加:
公式(2)中, 分别表示连通区域最小外接矩的宽度和高度。
4.根据权利要求2所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S22中,基于定义的非文本区域实现分割线、标点符号和图画装饰进行去除,其中,将满足以下特征的连通区域定义为非文本区域:公式(3)、(4)中,w,h分别表示二值图像的宽度和高度, 分别表示连通区域最小外接矩的宽度和高度。
5.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S31中,采用形态学腐蚀操作对图像中的文本区域进行处理时,采用1x5的矩形结构对图像进行卷积操作,将B对A的腐蚀记为AΘB,定义为:式(5)AΘB表示集合B的平移是A的子集的元素。
6.根据权利要求5所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,在进行连通区域标记时,对连通区域合并,将被包含的连通区域去除,具体方法为:设连通域1的参数为bottom1、top1、left1、right1,连通域2的参数为bottom2、top2、left2、right2,其中,top和bottom分别表示连通域最小外接矩在y轴方向上的最小值和最大值,left和right分别表示连通域最小外接矩在x轴方向上的最小值和最大值,连通域1包含连通域2根据下式(8)进行判定:
7.根据权利要求1所述的基于连通分量和回归式字切分的彝文古籍字符检测方法,其特征在于,步骤S33中,所述的投影法为在图像的某个方向上进行像素值的累加,具体的是,设函数f(i,j)表示二值图像中像素(i,j)是否为前景像素,f(i,j)表达式为:然后,按照如下公式对像素点累加:
式中,pi和pj分别表示沿i轴和j轴方向前景像素的累加值。