利索能及
我要发布
收藏
专利号: 2021106666995
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种场景文本定位识别的系统,其特征在于,其包括定位器、分组模块和识别器,所述定位器和识别器通过分组模块连接;

所述定位器输出字符框、字符连接框和文本框,所述字符框和字符连接框定位文本的位置,所述分组模块根据字符框和文本框将字符图片裁剪,分组送入到所述识别器当中,所述识别器输出各组的识别结果,最后根据定位和识别结果完成场景文本的定位与识别;

所述定位器的结构采用了基于中心点的目标检测网络的网络架构,其包括深度残差卷积网络、加权双向特征金字塔网络、反卷积模块、感兴趣区域提取和层叠头;所述定位器通过预测字符框的中心点位置、宽、高,以及中心点偏移量来表示字符的位置和大小,通过预测字符连接框的中心点位置、宽、高,以及中心点偏移量来表示一段文本当中两个字符之间的相连关系,通过预测文本框的中心点位置,宽、高,以及中心点偏移量来表示一段文本所在的位置和大小;

所述识别器的结构采用了面向场景文本识别的语义增强编解码框的网络架构,其包括卷积特征提取网络、双向长短期记忆网络、语义预训练深度双向变换器语言模型和基于Bahdanau注意力的门控循环单元网络;

所述定位器的输入是一张RGB三通道的图片,将该图片进行归一化和标准化处理,接着将这张处理好的图片送进101层的深度残差卷积网络中,此网络可以分成一个根茎模块和四个残差卷积模块,并在最后两个残差卷积模块当中使用可变形卷积,将四个残差卷积块输出的特征图送入加权双向特征金字塔网络中;再把所述加权双向特征金字塔网络输出的特征图送入到反卷积模块中,所述反卷积模块包括三个反卷积组,每组都包括一个卷积和一个反卷积,每次反卷积都会将特征图尺寸放大一倍,最终得到的特征图再送到三个卷积分支输出预测结果;所述场景文本定位识别的系统预测的形式为文本、字符和字符连接的中心点热力图及其框的宽、高和中心点的偏移量,对所述文本、字符、字符连接的框的宽、高以及中心点的偏移量进行回归,对文本、字符和字符连接的中心点预测使用的损失函数是焦点损失函数,对于偏移量和框的宽高使用最小绝对值偏差损失,接着根据字符框从相应的特征图中提取特征,利用所述层叠头进一步细分成文本框、字符框和字符连接框这三类;

根据所述字符框和字符连接框对文本进行准确定位,所述文本包括规则形状的文本和不规则形状的文本,根据所述文本框能够对字符进行分组;

所述分组模块分组后的字符图片依次送入卷积特征提取网络生成字符特征,将生成的同组字符特征一起送入256个隐藏单元的双向长短期记忆网络的编码器中,双向长短期记忆网络会得到一个隐藏层输出,隐藏层输出会被送进两个模块,第一个模块是语义模块,第二个模块是基于Bahdanau注意力的门控循环单元的解码器模块;所述语义模块有两个线性层,通过语义模块生成了语义信息;所述语义信息也会经过其中一个线性层送入第二个模块中;整个网络的损失有两个部分组成,第一个损失是预测结果与真实结果的交叉熵损失,第二个损失是从语义预训练的深度双向变换器语言模型中的转录标签词嵌入的预测语义信息的余弦嵌入损失。

2.根据权利要求1所述的系统,其特征在于,所述第二个模块由512个隐藏单元和512个注意力单元的单层注意力的门控循环单元所组成。