利索能及
我要发布
收藏
专利号: 2023108180497
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于加权对齐金字塔结构的场景文本提取方法,其特征在于,包括以下步骤:S1,采集场景文本图像特征信息并输入布满遗传视网膜卷积的主干网络中,通过遗传视网膜卷积的遗传模块对输入特征进行处理,并输出不同阶段的特征;

S2,将不同阶段的特征输入加权对齐金字塔模块处理并获得四个下采样的特征图,然后利用普通金字塔模块把下采样的特征图上采样到同级大小;所述S2步骤具体包括如下公式:表示经过特征融合后的第一结果;

表示经过特征融合后的第二结果;

表示经过特征融合后的第三结果;

表示经过特征融合后的第四结果;

Conv()表示向量卷积运算;

Strip()表示自适应级联特征对齐池化金字塔;

表示第二尺度的输入;

表示第三尺度的输入;

表示第四尺度的输入;

Up()表示上采样操作;

S3,通过加权对齐金字塔模块将底层特征和高层特征进行融合,然后将融合后的高层特征使用加权融合的方式学习不同输入特征的权重,用于构建整个场景的长期依赖关系,对不同输入特征有区分的融合;所述S3步骤具体包括如下公式:表示第一尺度的特征融合输出;

表示第二尺度的特征融合输出;

表示第三尺度的特征融合输出;

表示第四尺度的特征融合输出;

Conv()表示向量卷积运算;

w1′表示再次通过学习得到的第一可变权重;

w′2表示再次通过学习得到的第二可变权重;

w3′表示再次通过学习得到的第三可变权重;

ε表示保证数值稳定的极小量;

表示第一尺度的输入;

表示第二尺度的输入;

表示第三尺度的输入;

表示第四尺度的输入;

Up()表示上采样操作;

表示经过特征融合后的第一结果;

表示经过特征融合后的第二结果;

表示经过特征融合后的第三结果;

S4,在区分融合之后,获得用于预测概率图P和阈值图T,通过P和T计算近似二进制映射∧B ,用于将文本区域分割出来,去掉冗余的干扰信息,突出文本信息。

2.根据权利要求1所述的基于加权对齐金字塔结构的场景文本提取方法,其特征在于,所述S4步骤具体包括如下公式:(i,j)表示输入图像的指标点;

表示输入图像的指标点的二进制映射;

T(i,j)表示从网络学习的输入图像的指标点的自适应阈值图;

P(i,j)表示输入图像的指标点的预测概率图;

k表示放大因子。

3.根据权利要求1所述的基于加权对齐金字塔结构的场景文本提取方法,其特征在于,还包括对该方法进行指标评价,指标评价包括查全率、查准率、调和平均数之一或者任意组合。