1.一种基于字符分割的多方向自然场景文本检测方法,包括如下步骤:
S1.获取训练数据集,并对训练数据集进行标定;
S2.建立基于字符分割的多方向自然场景文本检测初步模型;所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型;
S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型;
S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型,对自然场景的文本进行检测。
2.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S1所述的获取训练数据集,并对训练数据集进行标定,具体为在公共数据集ICDAR2013与ICDAR2015上进行标定;标定字符和字符间的亲和度;在各字符中心的中点为字符间亲和度的中点,宽高分别为两字符宽高之和的一半。
3.根据权利要求2所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S2所述的基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型,具体为金字塔网络框架的第一阶段到第五阶段的卷积层为ResNet50网络,在每一个阶段均设置一个上采样操作;同时在金字塔网络后,再连接一个双向长短期记忆网络。
4.根据权利要求3所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S3所述的用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型,具体为采用如下步骤进行训练并得到检测模型:A.将训练数据中的原始图像分为RGB三个通道,并输入到金字塔网络框架中;
B.将原始图像输入到第一卷积层后得到第一卷积结果;将第一卷积结果输入到第二卷积层得到第二卷积结果;将第二卷积结果输入到第三卷积层得到第三卷积结果;将第三卷积结果输入到第四卷积层得到第四卷积结果;将第四卷积结果输入到第五卷积层得到第五卷积结果;
C.将第五卷积结果与第五卷积结果自身按位相加后,再进行一次上采样得到第五卷积图像;将第五卷积图像与第四卷积结果按位相加后,再进行一次上采样得到第四卷积图像;
将第四卷积图像与第三卷积结果按位相加后,再进行一次上采样得到第三卷积图像;将第三卷积图像与第二卷积结果按位相加后,再进行一次上采样得到第二卷积图像;
D.将步骤C得到的第二卷积图像输入到全连接层中,经过实例平衡交叉熵损失函数后,得到文字字符实例预测概率图;
E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中,再经过连接损失函数后,得到字符间亲和度的特征图;
F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加,得到文本行预测概率图;
G.将步骤F中得到的文本行预测概率图中,概率大于设定值的区域设定为文本行,并输出最终的预测结果,从而得到基于字符分割的多方向自然场景文本检测模型。
5.根据权利要求4所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤D所述的实例平衡交叉熵损失函数,具体为采用如下算式作为实例平衡交叉熵损失函数:Lclass=Lcross-entropy
式中Lcross-entropy为交叉熵损失。
6.根据权利要求5所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤E所述的连接损失函数,具体为采用如下算式作为连接损失函数:式中 为标定的置信度;SP为预测的置信度;R(c)表示标定的字符c所在的区域;P表示当前像素。
7.根据权利要求6所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S3所述的训练,具体为模型预训练时,初始学习率为3×10-5,并且每2万次迭代学习率-5下降0.6×10 ,批处理大小设置为128,所有的训练图片均归一化为768×768大小;模型在训练5万步后,再进行真实场景数据进行训练和微调。