利索能及
我要发布
收藏
专利号: 2021115307949
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于CRAFT和SCRN‑SEED框架的自然场景文字检测识别方法,其特征在于,包括如下步骤:

(1)利用真实数据集和合成数据集建立图像数据集,将图像数据集分为训练集和测试集;

(2)利用图像数据集训练CRAFT网络:(201)将CRAFT网络进行改进,以ResNet50网络作为主干网络,将合成数据集中的图片输入到改进后的CRAFT网络进行特征提取,输出区域得分和亲和度得分;

(202)根据两项得分通过高斯热力映射进行编码,生成高斯热力图;

(203)根据分水岭算法将输入图片中完整文本切割成单个字符,通过后处理操作将字符生成任意形状文本的多边形;

(203)应用迁移学习的思想,利用预训练模型初始化改进后的CRAFT网络;

(3)利用真实数据集训练不规则文本纠正网络SCRN;

(4)将SCRN与SEED网络结合,训练结合后的SCRN‑SEED网络;

(5)将改进后的CRAFT网络与SCRN‑SEED网络连接,构建完整的模型并进行训练。

2.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述应用迁移学习的思想,利用预训练模型初始化改进后的CRAFT网络的步骤包括:首先,使用合成数据集训练CRAFT网络,使用Adam优化器优化网络,再利用多个真实数据集微调网络,在微调期间,以1:5的比率使用SynthText数据集,以1:3的比例使用在线难例挖掘;

然后,使用含有四边形标注的真实数据集和SynthText数据集训练CRAFT网络,将其中一部分划分为测试集对网络参数进行调整。

3.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述将SCRN与SEED网络结合,训练结合后的SCRN‑SEED网络的步骤包括:用训练后的SCRN网络代替SEED网络中的图像纠正模块,利用语义模型FastText的预训练语言模型初始化预训练模型的参数,利用测试集初步训练改进后的SCRN‑SEED网络,根据训练效果调整网络参数。

4.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述将改进后的CRAFT网络与SCRN‑SEED网络连接,构建完整的模型并对其进行训练的步骤包括:将任意形状文本的多边形生成包含所有字符的最小矩形框,将矩形框裁剪出来,调整裁剪后图片格式,然后输入到SCRN‑SEED网络完成模型的构建,利用验证集对模型进行训练,将训练效果最优的参数保留,输入自然场景下的图片到模型中,进行自动文字检测与识别任务。

5.根据权利要求1所述的自然场景文字检测识别方法,其特征在于,所述真实数据集来自ICDAR2013、ICDAR2015、ICDAR2017、MSRA‑TD500、TotalText、CTW‑1500数据库,所述合成数据集为SynthText数据集;

调整图像数据集中每个图片的大小,将数据集中的图片格式转换mdb格式。