利索能及
我要发布
收藏
专利号: 2020103406173
申请人: 佛山市南海区广工大数控装备协同创新研究院
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于全卷积网络的场景文本定位与识别方法,其特征在于,包括以下步骤:S1、获取包含数张已标记出文本位置的训练图片的训练集;

S2、构建一个基于文本定位的全卷积神经网络模型,所述全卷积神经网络模型包括特征提取网络、特征融合网络和文本候选框筛选层,将所述训练集输入到所述基于文本定位的全卷积神经网络模型中进行训练,迭代模型参数后得到收敛的文本定位网络模型Model1;

S3、构建文本识别网络模型,所述文本识别网络中包括卷积神经网络层、注意力机制层、循环神经网络层和翻译层,将所述训练集输入到所述文本识别网络模型中进行训练,迭代模型参数后得到收敛的文本识别网络模型Model2;

S4、将待文本定位与识别的场景图像输入到所述文本定位网络模型Model1中得到文本存在置信度及文本区域位置,经过筛选后处理输出最佳文本候选框;

S5、将含有最佳文本候选框的图像输入到所述文本识别网络模型Model2中,得到文本识别结果。

2.根据权利要求1所述的一种基于全卷积网络的场景文本定位与识别方法,其特征在于,所述特征提取网络由卷积层和池化层组成,用于提取出输入图像的卷积特征图;所述特征融合网络是将多特征预测层与不同阶段的特征层进行卷积,预测出文本存在置信度和文本区域位置;所述文本候选框筛选层作用是对不同文本区域候选框后处理,得到最佳文本候选框位置。

3.根据权利要求1-2所述的一种基于全卷积网络的场景文本定位与识别方法,其特征在于,所述步骤S2中基于文本定位的全卷积神经网络模型的构建过程为:S21、通过特征提取网络提取多尺度特征;

S22、通过特征融合网络进行多尺度特征融合;

S23、通过文本候选框筛选输出含有最佳文本候选框的图像。

4.根据权利要求3所述的一种基于全卷积网络的场景文本定位与识别方法,其特征在于,所述步骤S23中每个所述文本候选框均有一个置信度得分,通过所述文本候选框处理移除非最佳候选框,最终筛选出最佳文本候选框的图像,其具体包括:S231、将所有的文本候选框按照置信度得分从高到低排序,将得分最高的作为当前最佳候选框a,将剩余候选框依次作为后选最佳文本候选框b;

S232、计算后选出最佳文本候选框b与当前最佳文本候选框a的重叠度,重叠度计算公式为两者重叠面积与两者并集面积之比,即:S233、若b与a之间的IOU大于阈值,表明b与a重叠度较高,应为同一文本区域,但是b的置信度得分没有a的高,所以要抑制所述后选最佳文本候选框b,也就是从剩余候选框中移除文本候选框b;

S234、重复上述3个步骤逐个筛选所述后选最佳文本候选框b,当对剩余的候选框依次筛选完成后,仅剩下与文本候选框a重叠度小于阈值的候选框,即剩下的候选框都是其他文本区域候选框。

5.根据权利要求1所述的一种基于全卷积网络的场景文本定位与识别方法,其特征在于,所述步骤S3中所述文本识别网络模型的构建过程为:S31、将文本定位网络模型Model1输出的图像输入到所述卷积神经网络层中,提取图像的特征向量序列;

S32、通过注意力机制计算所有特征向量的关联程度,并把这种关联程度转化成概率权重,然后与输入序列相乘筛选出新的特征向量序列;

S33、将所述新的特征向量序列作为循环神经网络层的输入,预测出每帧序列的标签分布;

S34、最后通过翻译层将每帧序列的预测翻译成最高概率的标签序列。

6.根据权利要求2所述的一种基于全卷积网络的场景文本定位与识别方法,其特征在于,所述步骤S4中预测文本区域位置的过程为:S41、在输入多特征预测层的特征图上预置默认框,回归出一系列多角度文本框,有用四个点表示的四边形和用左上角、右上角点和高表示的旋转矩形两种形式;

S42、将特征融合网络输出的文本存在置信度和文本区域位置候选框坐标偏移量表示为四边形或旋转矩形的关联默认框;

S43、根据文本候选框和候选框外接水平矩形回归出四边形或旋转矩形的真实边界框,回归计算公式为:di=|b1-qi|+|b2-q(i+1)|+|b3-q(i+2)|+|b4-q(i+3)|,i=1di=|b1-qi|+|b2-q(i+1)%4|+|b3-q(i+2)%4|+|b4-q(i+3)%4|,i=2,3,4其中,bi、qi,i=1,2,3,4分别为外界水平矩形框和回归四边形或旋转矩形的四个顶点,%表示取余;

S44、通过文本候选框筛选获得最佳文本区域候选框。