利索能及
我要发布
收藏
专利号: 2025100254400
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于VMamba框架和通道‑空间注意力机制的场景文本检测方法,其特征在于,所述方法用于对场景中的文本进行检测,包括:步骤S1,获取包含文本的场景图像参考样本数据集,对参考样本数据集应用数据增强策略,生成增强样本数据集;

步骤S2,基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,应用可变形VMamba特征编码器对增强样本数据集中各场景图像进行处理,获得各场景图像分别对应的多尺度文本实例特征图;其中,步骤S2包括:步骤S201,采用Stem模块将输入可变形VMamba特征编码器中的增强样本数据集中各场景图像划分为指定尺寸的图像补丁;

步骤S202,将图像补丁顺序输入至可变形VMamba特征编码器的第一Stage、第二Stage、第三Stage、第四Stage中,其中第一Stage提取输出第一尺寸特征图,第二Stage提取输出第二尺寸特征图,第三Stage提取输出第三尺寸特征图,第四Stage提取输出第四尺寸特征图;

步骤S203,将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入目标可变形卷积中,输出多尺度文本实例特征图;

其中,步骤S203包括:

将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入卷积核大小为3×3的可变形卷积中,分别得到可变形VMamba特征编码器输出的对应尺度的文本实例特征图,其中可变形卷积如下式所示:其中,x(p)表示输入的特征图在p位置的特征,y(p)表示输入特征图对应的输出特征图在p位置的特征,wk表示第K个采样位置的权重,pk表示第K个采样位置的预设偏移量,Δpk表示第K个采样位置的可学习偏移量,Δmk表示第K个采样位置的可学习调制标量;

步骤S3,采用插值和最大池化方法,根据多尺度文本实例特征图获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,用于对平衡特征图进行通道‑空间注意力计算和通道洗牌,得到逐像素增强后的文本实例特征;

步骤S4,构建傅里叶特征解码器,用于根据文本实例特征获得逐像素的文本区域掩模图和傅里叶特征向量,并使用离散傅里叶逆变换获得重构的文本实例轮廓;自输入到输出方向,可变形VMamba特征编码器、GASM模块和傅里叶特征解码器构成待训练网络结构,采用损失函数对待训练网络结构进行训练,生成以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。

2.根据权利要求1所述的方法,其特征在于,所述步骤S1中参考样本数据集应用数据增强策略,生成增强样本数据集包括:对参考样本数据集进行随机裁剪、随机水平翻转、随机旋转操作,并调整亮度、饱和度和对比度,生成增强样本数据集。

3.根据权利要求2所述的方法,其特征在于,所述步骤S3包括:

通过插值和最大池化的方法基于多尺度文本实例特征图获得平衡语义特征;

利用嵌入式高斯非局部注意力机制对平衡语义特征进行精炼,并获得平衡特征图;

基于通道‑空间注意力机制构建GASM模块,并将平衡特征图中的通道维度排至最后一维;通过全连接层和ReLU激活函数生成通道注意力图,将平衡特征图和通道注意力图逐像素相乘,得到通道增强后的特征图;

将通道增强后的特征图划分为目标数量的分组,其中每个分组的通道数根据总通道数除以分组数量决定,并将每个分组中的通道划分为至少一个子组,通过打乱各分组内的通道顺序组合每分组中的不同子组,将打乱后的特征图恢复为原始形状,得到混洗后的特征图;

对混洗后的特征图进行卷积操作,并采用批量归一化和ReLU激活函数生成空间注意力图,将混洗后的特征图与空间注意力图逐像素相乘,输出逐像素增强后的文本实例特征。

4.根据权利要求3所述的方法,其特征在于,所述通过全连接层和ReLU激活函数生成通道注意力图,将平衡特征图和通道注意力图逐像素相乘,得到通道增强后的特征图包括:通过全连接层将平衡后特征图的输入通道数降维,使用ReLU激活函数对通道间的复杂关系进行建模,将输入通道数重新升维,生成通道注意力图;

将平衡特征图和通道注意力图逐像素相乘,得到通道增强后的特征图,公式如下:

ωc=σ(Permute(MLP(Permute(Finput))))

其中,ωc为通道注意力图,Fchannel为通道增强后的特征图,σ为Sigmoid函数, 表示逐像素相乘,Finput为原始输入特征图,MLP为全连接层,Permute为转置操作。

5.根据权利要求4所述的方法,其特征在于,所述对混洗后的特征图进行卷积操作,并采用批量归一化和ReLU激活函数生成空间注意力图,将混洗后的特征图与空间注意力图逐像素相乘,输出逐像素增强后的文本实例特征包括:将混洗后的特征图输入第一7×7的卷积层,将混洗后特征图的通道数进行缩减;

采用批量归一化和ReLU激活函数以稳定训练过程并进行非线性变换,从而对空间中的复杂关系进行建模,再通过第二7×7的卷积层将特征图的通道数恢复至混洗后的大小,生成空间注意力图;

将混洗后的特征图和空间注意力图逐像素相乘,获得GASM模块输出的逐像素增强后的文本实例特征,公式如下:ωs=σ(BN(Conv(BN(Conv(Fshuffle)))))

其中,ωs为空间注意力图,Foutput为GASM模块输出的特征图,σ为Sigmoid函数, 表示逐像素相乘,Fshuffle是混洗后的特征图,BN为批量归一化,Conv为卷积层。

6.根据权利要求5所述的方法,其特征在于,所述步骤S4包括:

对逐像素增强后的文本实例特征进行卷积,分别获取用于预测每个像素是否属于文本区域的分类结果和预测每个像素的傅里叶级数系数的回归结果;

对分类结果进行归一化操作,获得识别文本区域的概率分布和识别文本中心区域的概率分布;将文本区域得分和文本中心区域得分进行加权乘积得到逐像素的分类得分图,并进行二值化操作获得文本区域掩模图;

通过阈值化操作提取文本区域掩模图中文本区域对应的傅里叶特征向量,并通过离散傅里叶逆变换获得重构的文本实例轮廓;

采用基于文本实例类别和傅里叶特征向量的损失函数对自输入到输出方向由可变形VMamba特征编码器、GASM模块和傅里叶特征解码器构成的待训练网络结构进行训练,获得场景文本检测模型,并输出预测的文本实例轮廓。

7.一种基于VMamba框架和通道‑空间注意力机制的场景文本检测装置,其特征在于,所述装置包括:样本增广模块,用于获取包含文本的场景图像参考样本数据集,对参考样本数据集应用数据增强策略,生成增强样本数据集;

特征编码器构建模块,用于执行基于VMamba框架采用可变形卷积构建可变形VMamba特征编码器,应用可变形VMamba特征编码器对增强样本数据集中各场景图像进行处理,获得各场景图像分别对应的多尺度文本实例特征图;其中特征编码器构建模块还用于执行采用Stem模块将输入可变形VMamba特征编码器中的增强样本数据集中各场景图像划分为指定尺寸的图像补丁;将图像补丁顺序输入至可变形VMamba特征编码器的第一Stage、第二Stage、第三Stage、第四Stage中,其中第一Stage提取输出第一尺寸特征图,第二Stage提取输出第二尺寸特征图,第三Stage提取输出第三尺寸特征图,第四Stage提取输出第四尺寸特征图;将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入目标可变形卷积中,输出多尺度文本实例特征图;其中,特征编码器构建模块还用于执行将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入目标可变形卷积中,输出多尺度文本实例特征图包括将第二尺寸特征图、第三尺寸特征图、第四尺寸特征图输入卷积核大小为3×3的可变形卷积中,分别得到可变形VMamba特征编码器输出的对应尺度的文本实例特征图,其中可变形卷积如下式所示:其中,x(p)表示输入的特征图在p位置的特征,y(p)表示输入特征图对应的输出特征图在p位置的特征,wk表示第K个采样位置的权重,pk表示第K个采样位置的预设偏移量,Δpk表示第K个采样位置的可学习偏移量,Δmk表示第K个采样位置的可学习调制标量;

GASM模块构建模块,用于采用插值和最大池化方法,根据多尺度文本实例特征图获得平衡特征图;基于通道‑空间注意力机制构建GASM模块,用于对平衡特征图进行通道‑空间注意力计算和通道洗牌,得到逐像素增强后的文本实例特征;

场景文本检测模型生成模块,用于构建傅里叶特征解码器,用于根据文本实例特征获得逐像素的文本区域掩模图和傅里叶特征向量,并使用离散傅里叶逆变换获得重构的文本实例轮廓;自输入到输出方向,可变形VMamba特征编码器、GASM模块和傅里叶特征解码器构成待训练网络结构,采用损失函数对待训练网络结构进行训练,生成以增强样本数据集为输入、文本实例轮廓为输出的场景文本检测模型。

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。