利索能及
我要发布
收藏
专利号: 2024112076109
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于 Transformer 的双向场景文本识别方法,其特征在于,包括以下步骤:(1)开源网站获取数据集,分为训练集和测试集;

(2)构建BiSTR双向场景文本识别网络并进行训练,包括:图像编码器模块、ViT字符编码器模块、交叉门控融合机制模块和基于Transformer的双向解码器模块;其中,图像编码器模块用于将图像输入ResNet图像编码器中提取图像级特征;ViT字符编码器模块用于将图像输入ViT字符编码器提取字符级特征;交叉门控融合机制模块用于集成图像级和单词级特征;由多头交叉注意力机制和双曲正切‑门控机制组成;将全局特征线性投影到局部表示;将全局特征视为视觉内容,利用多头交叉注意力机制将全局特征与裁剪的视觉特征合并,公式如下:;

其中,Q表示查询向量,K表示键向量,V表示值向量, 表示图像级特征,表示字符级特征;

在多头交叉注意力机制中添加双曲正切‑门控机制,双曲正切‑门控机制用于在初始化时保持向前传递的完整性,并在训练期间逐渐在原始的全局特征和融合表示之间转换,公式如下:;

其中,tanh()为双曲正切函数, 为字符级特征,是可学习参数,初始化为0;

表示多头注意机制输出的特征; 表示门控融合输出的特征;

基于Transformer的双向解码器模块具体如下:融合机制得到的结果经过特征组合后输入到Transformer双向解码器中,Transformer双向解码器中在位置嵌入和标记嵌入的基础上增加方向嵌入,同时以原始和反向字符顺序解码,模型对给定样本产生两个预测,利用交叉熵损失计算各类型真值的概率,最后将单词概率最高的输出将被选择为最终预测;

(3)得到最终预测结果。

2.根据权利要求1所述的一种基于 Transformer 的双向场景文本识别方法,其特征在于,步骤(1)具体如下:对于训练数据集选择合成文本数据集训练网络;在通用的七个测试集上进行网络性能评估,包括手写文本数据集IIIT、场景文本数据IC13、场景文本数据C03、场景文本数据IC15、街景文本数据集SVT,街景文本‑透视数据集SVT‑P,弯曲文本数据集CUTE。

3.根据权利要求1所述的一种基于 Transformer 的双向场景文本识别方法,其特征在于,通过添加方向嵌入使用同一个解码器网络对输出序列的读取方向进行条件限制,在每次训练迭代中,批处理中的每个输入图像都被从左到右,从右到左解码两次。

4.根据权利要求1所述的一种基于 Transformer 的双向场景文本识别方法,其特征在于,在输入标记嵌入中解绑定位置编码策略,计算位置注意,然后多头交叉注意力机制中添加位置注意;其中位置注意公式如下:;

其中,j表示不同方向的真值类型, 表示编码器部分的位置嵌入, 表示位置编码, , , , 是线性层,d表示线性层的维度,解码器中的所有层共享相同的位置关注;

和 均表示位置注意。