1.基于注意力机制特征融合与增强的自然场景文本检测方法,其特征在于,包括以下步骤,S1、获取自然场景文本图像;
S2、对所述自然场景文本图像进行特征提取,整体做n次下采样操作,取第[2,n]次下采样后的特征图为第一特征图;
S3、除最后一次下采样后的第一特征图外,对其他每个第一特征图进行空间信息特征提取,得到空间信息掩码;对最后一个第一特征图进行通道信息的特征提取,获得通道权重向量;
S4、逐级对第一特征图、空间信息掩码、通道权重向量进行基于注意力机制的解码融合,经过上采样、相乘、相加的操作得到具有显著特征的第二特征图;
S5、使用卷积对融合特征做通道数调整,并采用不同倍率的上采样统一尺寸为原图1/4大小,按照通道维度拼接得到第三特征图;
S6、构造卷积、池化、拼接的不同组合,对第三特征图进一步的特征提取、融合与加强;
S7、对S6得到的特征上采样到原图大小,并进行卷积,获得自然场景文本图像中文本核心区域和边界区域的分割掩模。
2.根据权利要求1所述的自然场景文本检测方法,其特征在于,步骤S2的过程具体为,将待识别的自然场景文本图像统一缩放至A×A大小;运用可变型卷积提取特征,使其执行5次下采样分别得到大小为A/4、A/8、A/16、A/32的第一特征图in2、in3、in4、in5。
3.根据权利要求2所述的自然场景文本检测方法,其特征在于,步骤S3的过程具体为,构造卷积核池化和拼接的组合,使用空间信息提取模块SAM对第一特征图in4按位置做最大池化和平均池化,对最大池化和平均池化后的特征拼接并卷积后得到空间信息掩码S4;对第一特征图in5按通道维度做最大池化和平均池化得到两个信息向量,对该两个信息向量做全连接操作并按位置相加后得到通道权重向量c5。
4.根据权利要求3所述的自然场景文本检测方法,其特征在于,步骤S4的过程具体为,特征融合模块AFFM对来自浅层编码端的第一特征图ink(k=2,3,4)和来自深层解码端的第二特征图outk+1(k=2,3,4)进行解码融合,得到本层融合后的第二特征图outm(m=2,3,4,
5)。
5.根据权利要求4所述的自然场景文本检测方法,其特征在于,步骤S5的过程具体为,将所得融合后的第二特征图outm分别经过一层3×3卷积进一步提取特征,并对通道维度统一调整为C,再对调整通道后的特征分别做0、2、4、8倍率的上采样统一调整至原图1/4大小,得到特征P2、P3、P4、P5,并对其进行通道维度的拼接作为第三特征图F,其维度为4C×A/4×A/4。
6.根据权利要求5所述的自然场景文本检测方法,其特征在于,步骤S6的过程具体为,特征增强模块JAM分别使用通道信息提取模块CAM和空间信息提取模块SAM对第三特征图F做通道间和空间位置间的依赖关系建模,再对所得4C×1×1通道信息权向量和1×A/4×A/
4的空间信息掩码扩张到4C×A/4×A/4维度后按位置相乘得到权重特征F',再经过sigoid激活函数后与第三特征图F相乘得到增强后的特征F”。
7.一种基于注意力机制的自然场景文本检测系统,其特征在于,包括,
获取模块,用于获取自然场景文本图像;
编码提取模块,用于对自然场景文本图像进行卷积操作提取特征,并进行n次下采样,得到第一特征图;
空间信息提取模块,用于提取第一特征图的空间细节信息,得到空间信息掩码;
通道信息提取模块,用于提取来自相邻深一层的第二特征图的语义信息,得到通道权重向量;
特征融合模块,用于逐级解码,即将本层第一特征图、相邻深一层第二特征图、空间信息掩码、通道权重向量进行组合加权并相加融合,得到信息增强后的本层第二特征图;
特征拼接模块,用于将不同尺度的第二特征图上采样到相同尺度后在通道维度做拼接,得到第三特征图;
特征增强模块,用于对第三特征图进行空间以及通道上的关系建模。
8.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。