欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 201810429149X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种带有文本方向校正的英文文本检测方法,其特征在于,包括以下步骤:

S1、分别对英文文本图像的锐化图像各个通道进行最大稳定极值区域检测,从图像中提取最大稳定极值区域;得出候选文本区域;

S2、建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征;利用softmax函数根据候选文本区域的特征,将候选文本区域分为文本类区域和非文本类区域;过滤非文本类区域,获得初步文本区域,即检测出英文文本;

S3、利用双层文本分组算法将所述初步文本区域分组;

S4、将分组后的初步文本区域进行方向校正,从而实现英文文本的校正。

2.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述通道包括:红色通道、绿色通道、蓝色通道、色调通道、饱和度通道、明度通道以及灰通道。

3.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述建立基于卷积神经网络模型的分类器,提取出候选文本区域的特征包括:分别根据分类器中的五层架构获得候选文本区域的第一特征以及通过跨层获得候选文本区域的第二特征,其中,五层架构包括依次相连的第一卷积层,最大池化层、第二卷积层、金字塔池化层以及全连接层;跨层表示第一卷积层到全连接层。

4.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第一特征的获取方式为:利用第一层架构中的第一卷积核对候选文本区域进行第一次滤波;将第一次滤波后的候选文本区域在第二层架构中进行最大池化;利用第三层架构中的第二卷积核,对最大池化后的候选文本区域进行第二次滤波;对第二次滤波后的候选文本区域,在第四层架构中进行利用金字塔池化;对金字塔池化后的候选文本区域在第五层架构中进行全连接,从而提取出候选文本区域的第一特征。

5.根据权利要求3所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述第二特征的获取方式为:利用手动添加的特征,将第一卷积核对候选文本区域进行第一次滤波;将滤波后的候选文本区域按照手动添加的特征进行全连接,从而提取出候选文本区域的第二特征。

6.根据权利要求5所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述手动添加的特征包括:高宽比、紧密性、笔画宽度面积比、局部对比度和边界关键点。

7.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述利用双层文本分组算法将所述初步文本区域分组包括:将初步文本区域进行垂直分组,具体包括:获取第n个初步文本区域中像素为255的最小Y轴坐标bn;获取第n+1个初步文本区域中像素为255的最大Y轴坐标tn+1;获取第n+1个初步文本区域的高度hn+1;

计算高度差 如果高度差dn,n+1大于高度阈值;则将两个初步文本区

域划分为相同的类,即属于同一文本行;如果高度差dn,n+1小于或等于高度阈值,则两个初步文本区域不是相同的类,第n+1个初步文本区域被视为新文本行,且将所述新文本行在Y轴方向拆分。

8.根据权利要求7所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述利用双层文本分组算法将所述初步文本区域分组还包括:将初步文本区域进行水平分组,具体包括:获取X轴上同一文本行中两个相邻初步文本区域之间的距离差Δd;距离差Δd包括:同一单词中字母之间的距离d1和单词之间的距离d2;

根据系数 来表示文本行中所有字母的平均宽度,根据宽度阈值来分开单词;

获取字母宽度和间隔的比值 如果字母宽度和间隔的比值dh小于宽度阈值,两个相邻初步文本区域属于同一类,即同一个单词,如果字母宽度和间隔的比值dh大于或等于宽度阈值,两个相邻初步文本区域不属于同一类,即这两个相邻初步文本区域不属于同一个单词,将后一个初步文本区域作为新单词的开始。

9.根据权利要求1所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述将分组后的初步文本区域进行方向校正,从而实现英文文本的校正包括:S401、使用坐标旋转公式分别将分组后的初步文本区域以顺时针旋转α度;设定初始值i=1,α=-30°;

S402、通过模型匹配过程,将错误引入的分组框过滤;获得第i个待定校正文本区域;

S403、当i<6时,i=i+1,α=α+10°;返回步骤S401,当i=6时,将第1个待定校正文本至第6个待定校正文本叠加,从而获得最终校正文本。

10.根据权利要求9所述的一种带有文本方向校正的英文文本检测方法,其特征在于,所述分组框包括:倾斜分组框以及长间隔分组框;所述倾斜分组框包含一个字母;所述长间隔分组框包含的字母位于两端。