利索能及
我要发布
收藏
专利号: 2022111727137
申请人: 黑盒科技(广州)有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于图像实例分割的版面分析方法,其特征在于,包括以下步骤:通过特征提取网络对待检测图片进行特征提取处理,得到特征图;

对特征图进行等比切分处理,得到切分后的特征图;

基于编码器,通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图,得到加和后的特征图;

对加和后的特征图依次进行随机遮挡与预测处理,得到识别分析图。

2.根据权利要求1所述一种基于图像实例分割的版面分析方法,其特征在于,所述通过特征提取网络对待检测图片进行特征提取处理,得到特征图这一步骤,其具体包括:获取待检测图片;

将所述待检测图片输入至特征提取网络模型;

基于特征提取网络模型的卷积层,对待检测图片进行卷积运算,得到浅层特征图与深层特征图;

基于特征提取网络模型的池化层,对浅层特征图与深层特征图进行融合处理,得到特征图。

3.根据权利要求2所述一种基于图像实例分割的版面分析方法,其特征在于,所述基于编码器,通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图,得到加和后的特征图这一步骤,其具体包括:基于编码器,对切分后的特征图进行编码处理,得到编码后的特征图;

通过注意力机制获取切分后的特征图的关键节点信息;

对编码后的特征图与特征图的关键节点信息进行加和处理,得到具有关键信息的特征图;

通过激活函数对具有关键信息的特征图进行前向传播处理,得到激活后的特征图;

对激活后的特征图与具有关键信息的特征图进行加和处理,得到编码器的输出结果;

对编码器的输出结果与切分后的特征图进行加和处理,得到加和后的特征图。

4.根据权利要求3所述一种基于图像实例分割的版面分析方法,其特征在于,所述基于编码器,对切分后的特征图进行编码处理,得到编码后的特征图这一步骤,其具体包括:将切分后的特征图输入至编码器;

基于编码器的信息编码模块,对切分后的特征图进行信息编码处理,得到具有信息关联的特征图;

基于编码器的位置编码模块,通过正余弦函数对切分后的特征图进行位置编码处理,得到具有位置关联的特征图;

对具有信息关联的特征图与具有位置关联的特征图进行加和处理,得到编码后的特征图。

5.根据权利要求3所述一种基于图像实例分割的版面分析方法,其特征在于,所述通过注意力机制获取切分后的特征图的关键节点信息这一步骤,其具体包括:引入查询、键、值矩阵并与切分后的特征图的向量进行相乘得到相乘后对应的查询、键、值矩阵;

对查询矩阵与键矩阵的转置矩阵进行相乘计算,得到分数矩阵;

对分数矩阵与值矩阵进行相乘计算,得到注意力矩阵的值;

通过归一化指数函数对注意力矩阵的值进行映射,得到映射后的数据;

对映射后的数据进行加权处理,得到切分后的特征图的关键节点信息。

6.根据权利要求5所述一种基于图像实例分割的版面分析方法,其特征在于,所述注意力机制的计算公式如下所示:Q=WQ*Xembedding

K=WK*Xembedding

V=WV*Xembedding

上式中,WQ,WK,WV分别表示网络随机初始的查询,键,值所对应的矩阵,Xembedding表示编码后的特征图,Q、K、V分别表示查询、键、值所对应的矩阵,dk表示网络的深度,Attention(·)表示注意力机制的计算公式,softmax(·)表示归一化指数函数。

7.根据权利要求5所述一种基于图像实例分割的版面分析方法,其特征在于,所述对加和后的特征图依次进行随机遮挡与预测处理,得到识别分析图这一步骤,其具体包括:选取加和后的特征图中的N个网格数据进行遮挡处理,得到被遮挡的网格数据;

对被遮挡的网格数据进行中心点预测与四周节点预测,得到中心点预测数据与四周节点预测数据;

对中心点预测数据与四周节点预测数据进行类别判断;

判断到所述中心点预测数据与所述四周节点预测数据为同一类别数据,对中心点预测数据与四周节点预测数据进行连接处理,得到识别分析图。

8.根据权利要求7所述一种基于图像实例分割的版面分析方法,其特征在于,还包括对识别分析图进行缩放处理。

9.根据权利要求7所述一种基于图像实例分割的版面分析方法,其特征在于,所述被遮挡的网格数据的损失计算公式表示如下:上式中,Total  loss(·)表示被遮挡的网格数据的损失计算公式,表示分类损失计算, 表示掩码损失计算,N表示被遮挡的网格数据,yi表示真实标签值, 表示预测标签值,p(yi)表示真实标签值所对应的概率。

10.一种基于图像实例分割的版面分析系统,其特征在于,包括以下模块:特征提取模块,用于通过特征提取网络对待检测图片进行特征提取处理,得到特征图;

切分模块,用于对特征图进行等比切分处理,得到切分后的特征图;

编码模块,基于编码器,通过注意力机制获取切分后的特征图之间的关系并赋予至切分后的特征图,得到加和后的特征图;

输出模块,用于对加和后的特征图依次进行随机遮挡与预测处理,得到识别分析图。