1.一种基于表征批归一化的自然场景文本识别方法,其特征在于,具体包括如下步骤:步骤1,利用空间转换网络将待识别的自然场景文本图像规则化为水平文本图像;
步骤2,对现有网络ResNet‑50中引入表征批归一化,构建得到特征提取网络;利用所述特征提取网络对所述水平文本图像进行提取,得到若干个不同分辨率大小的视觉特征图;
所述若干个不同分辨率大小的视觉特征图组成特征金字塔Fr;
步骤3,通过特征增强网络对所述特征金字塔Fr进行上尺度增强和下尺度增强,并与步骤2所述特征金字塔Fr的元素进行连接,获得最终的特征金字塔Fe,对特征金字塔Fe中各特征图进行上采样,得到相同尺寸大小的特征图Ff;
步骤4,利用视觉‑语义联合网络提取步骤3所述特征图Ff的语义信息,把提取出的语义信息和特征图相融合,得到一个新的特征空间;
步骤5,利用解码器对步骤4所述特征空间进行预测,得到最终识别结果;
步骤2所述表征批归一化,具体表示如下:
A×B×H×W
给定特征图X∈R ,其中,A、B、H和W分别表示批量大小、通道数、特征图的高度值和宽度值;
首先,对特征图X执行校准操作,得到校准后的特征图Xcm,表示如下:Xcm=X+ωm.Km
式中,ωm表示权重值,Km表示特征图X的统计数据;
然后,对特征图Xcm执行中心化操作,得到中心化后的特征图Xm,表示如下:Xm=Xcm‑E(Xcm)
式中,E(Xcm)表示特征图Xcm的均值,表示如下:E(Xcm)←mE(Xcm)+(1‑m)μc式中,m表示累计相加量,←表示函数映射,μc代表训练时每个批量的均值,表示如下;
式中,h表示特征图X的高度值,w表示特征图X的宽度值;
接着,对特征图Xm执行缩放操作,得到缩放后的特征图Xs,表示如下:式中,∈用于避免零方差,Var()表示方差函数,表达式如下;
式中, 表示训练时每个批量的方差,表示如下:其次,对特征图Xs进行缩放校正特征强度,得到校正后的特征图Xcs,表示如下:Xcs=Xs·R(ωv·Ks+ωb)
式中,ωv和ωb表示可训练参数,Ks表示特征图Xs的统计数据;R()表示校正函数;
最后,将校正后的特征图Xcs进行仿射变换,得到放射变换后的特征Y,表达式如下:Y=Xcsγ+β
式中,γ为缩放参数,β为平移参数。
2.根据权利要求1所述的一种基于表征批归一化的自然场景文本识别方法,其特征在于,步骤1所述空间转换网络包括定位网络、网格生成器和采样器;所述步骤1的方法,具体如下:步骤1.1,将待识别的自然场景文本图像调整大小至100像素×32像素;
步骤1.2,通过定位网络在调整大小后的待识别的自然场景文本图像上预测一组控制点;
步骤1.3,所述网格生成器利用所述控制点计算薄板样条变化参数,并在调整大小后的待识别的自然场景文本图像上生成采样网格;
步骤1.4,将所述采样网格和所述调整大小后的待识别的自然场景文本图像同时输入至所述采样器,通过在所述采样网格上进行采样,得到规则化后的水平文本图像。
3.根据权利要求1所述的一种基于表征批归一化的自然场景文本识别方法,其特征在于,所述步骤2的方法,具体如下:步骤2.1,在现有网络ResNet‑50的每一层卷积层后均添加表征归一化,得到所述特征提取网络;
步骤2.2,将所述水平文本图像作为所述特征提取网络的输入,分别输出四种不同分辨率大小的视觉特征图,所述视觉特征图的分辨率分别为输入的水平文本图像分辨率的1/4、
1/8、1/16和1/32;
步骤2.3,利用1×1的卷积层将步骤2.2所述视觉特征图的通道数均变成128后,构成特征金字塔Fr。
4.根据权利要求1所述的一种基于表征批归一化的自然场景文本识别方法,其特征在于,所述步骤3的方法,具体如下:步骤3.1,将步骤2所述特征金字塔Fr输入至级联上尺度卷积,依次以32、16、8和4的步长进行上尺度增强,输出上尺度增强后的特征金字塔;
步骤3.2,将步骤3.1所述上尺度增强后的特征金字塔通过级联下尺度卷积,依次以4、
8、16和32的步长进行下尺度增强,输出下尺度增强后的特征金字塔;
步骤3.3,将所述下尺度增强后的特征金字塔与步骤2所述特征金字塔Fr的元素进行连接,获得最终的特征金字塔Fe;
步骤3.4,将步骤3.3所述特征金字塔Fe中全部特征图进行上采样至原图的1/4,得到特征图Ff,所述特征图Ff的大小为H/4×W/4×512;其中,H为特征图的高度值,W为特征图的宽度值。
5.根据权利要求1所述的一种基于表征批归一化的自然场景文本识别方法,其特征在于,所述视觉‑语义联合网络是由两层BiLSTM网络构成的;所述步骤4的方法,具体如下:首先,利用视觉‑语义联合网络将步骤3所述特征图Ff提取为上下文特征序列V;
其次,将特征图Ff和上下文特征序列V相融合,组成一个新的特征空间C=(Ff,V)。
6.根据权利要求1所述的一种基于表征批归一化的自然场景文本识别方法,其特征在于,所述步骤5的方法,具体如下:解码器t时刻预测的输出yt,表示如下:
yt=softmax(Wyst+by)
式中,softmax是激活函数,Wy和by是可训练参数,st是LSTM在t时刻的隐藏状态,其表达式如下:st=LSTM(yt‑1,gt,st‑1)
其中,yt‑1是解码器t‑1时刻预测的输出,st‑1是LSTM在t‑1时刻的隐藏状态,gt是glimpse向量,是由特征空间C=(c1,c2,…,cj,…,cN)的每列元素的加权和组成的,即其中,cj表示特征空间C的第j列元素值,N表示特征空间C的总列数,αt,j是注意力权重,表示如下:T
其中,et,j=vtanh(Fst‑1+Gcj+b),v、F、G和b均为可训练参数,上标T为转置,tanh()为双曲正切函数。