利索能及
我要发布
收藏
专利号: 2021110438084
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于注意力机制的不规则自然场景文本识别方法,其特征在于,包含:(1)使用自然场景文本图像校正模块定位文本区域形状,将不规则的自然场景文本图像校正为规则的文本图像;

(2)在ResNet中引入空间‑通道混合注意力机制构建特征提取模块,使用特征提取模块提取不同尺度的视觉特征图;

(3)使用全卷积神经网络将不同尺度的视觉特征图对齐得到视觉注意力图;将视觉特征图和视觉注意力图相乘得到视觉注意力特征图;

(4)将得到的视觉注意力特征图经过一个双层BiLSTM上下文选择得到图像的上下文特征图,然后再将视觉注意力特征图和上下文特征图相连接得到新的特征空间D,该特征空间D包含图像的视觉特征和上下文特征;

(5)使用LSTM注意力解码器对特征空间D解码得到识别结果;

步骤(1)的具体过程如下:

(11)构建定位网络,获取文本区域形状,定位上下边缘的基准点C;所述定位网络包含4个卷积层,所述卷积层之后连接1个批归一化层和2个最大池化层;定位网络采用Relu激活函数;

(12)在网格生成器用上述基准点C计算TPS变换参数,得到文本图像上的采样网格;

(13)将采样网格和原图像输入采样器,在原图像上对网格点采样得到校正后的图像;

所述定位网络、网格生成器和采样器均可微,自然场景文本图像校正模块遵循反向传播来更新网络参数;

对于步骤(4)在视觉特征图上采用两层的BiLSTM输出上下文特征图H,将上下文特征图H和视觉注意力特征图V相结合得到一个新的特征空间D=(V,H);

步骤(5)具体实施如下:

在t时刻解码器的预测输出为yt:

yt=softmax(Woht+bo)                        式(7)其中,Wo和bo为可学习参数,ht代表在t时刻LSTM的隐藏状态;softmax为归一化指数函数;

ht的计算方式表示为:

ht=LSTM(yt‑1,ct,ht‑1)         式(8)其中,yt‑1代表t‑1时刻的预测;ct代表语义向量;ht‑1代表t‑1时刻LSTM的隐藏状态;LSTM为长短期记忆网络;

最后损失函数Loss的计算方式如下所示:

其中,Xi代表训练图片;Yi代表预测标签;

根据上述内容构建深度卷积网络模型,将训练集送入网络模型训练直至网络模型达到收敛。

2.根据权利要求1所述一种基于注意力机制的不规则自然场景文本识别方法,其特征在于,步骤(2)的具体过程如下:(21)基于通道注意力机制提取出通道注意力图Mc;所述通道注意力机制包括1个最大池化层、1个平均池化层和一个多层感知机,激活函数是sigmoid;以中间特征图F分别作为最大池化层和平均池化层的输入,将两个池化层得到的输出分别被转发到多层感知机,最终提取出通道注意力图Mc:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))      式(1)其中,F代表中间特征图;Avgpool为平均池化;MaxPool为最大池化;MLP为多层感知机;

σ代表sigmoid激活函数;

(22)将步骤(21)中所得通道注意力图和所述中间特征图相乘得到F′:(23)基于空间注意力机制得到空间注意力图Ms;所述空间注意力机制包括1个最大池化层、1个平均池化层和1个卷积层,以步骤(22)所得F′作为输入,得到最大池化特征和平均池化特征,通过卷积层将所述最大池化特征和平均池化特征整合起来,最后得到空间注意力图Ms:

7×7

Ms(F′)=σ(f ([AvgPool(F′);MaxPool(F′)]))    式(3);

7×7

其中,f 为滤波器大小为7×7的卷积运算;σ代表Relu激活函数;

(24)将步骤(23)中的输出和所述F′相乘得到F″:(25)将整个空间‑通道混合注意力机制的输入x和F″一起添加到Relu激活函数中得到输出的视觉特征映射Fv:Fv=σ(F″+x)                                              式(5)其中,σ代表Relu激活函数。

3.根据权利要求1所述一种基于注意力机制的不规则自然场景文本识别方法,其特征在于,步骤(3)的具体过程如下:在卷积过程利用下采样方法对不同尺寸的特征图进行编码,卷积过程包括层数相同的卷积层和反卷积层,每层卷积层输出的尺寸不同,每层反卷积层的输出与对应尺寸的卷积层输出相加,作为下一反卷积层的输入;最后经过Relu函数激活得到视觉注意力图;Fv代表视觉特征映射,Aatt代表通过注意力对齐得到的视觉注意力图,通过如下公式得到视觉注意力特征图V:

4.根据权利要求1所述一种基于注意力机制的不规则自然场景文本识别方法,其特征在于,所述深度卷积网络模型的训练设定为:深度卷积网络模型的epoch为10;

深度卷积网络模型的优化器为Adadelta;

深度卷积网络模型的学习率为0.1;

深度卷积网络模型每一批次读取的图片数为64;

深度卷积网络模型参数初始化方式为Kaiming初始化。