买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于注意力修正的图神经网络的视觉文档信息抽取方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于注意力修正的图神经网络的视觉文档信息抽取方法

￥15600

专利号： 202411964079X

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：包括以下步骤：步骤一：使用光学字符识别获取文档中若干实体以及实体所对应的文本内容、文本框坐标值和文本框尺寸，根据文本框坐标值和长宽表示实体节点布局特征，使用残差网络提取文档全局图像特征，再利用RoI对齐层获取区域级实体节点图像特征，并通过spacy模型提取文档的实体节点文本特征；

步骤二：对步骤一获取的实体节点图像特征、实体节点文本特征、实体节点布局特征通过计算各模态特征之间的交互关系以及对整体任务的贡献度，生成对应的注意力权重向量，然后用这些权重向量分别对各模态特征进行加权融合，得到最终的多模态融合实体节点特征；

步骤三：对文档里的各个实体节点，查找与之相邻最近的n个实体节点，对实体节点文本框左上角、右下角以及中心点之间的综合距离展开计算，得出最近的n个实体节点索引，用以生成边邻接矩阵；

步骤四：先使用基于节点特征距离计算注意力权重的方式，对步骤二获取的实体节点特征以及步骤三的边邻接矩阵，在GraphSAGE图网络模型的第一层中，以加权求和操作聚合邻居节点特征并结合注意力权重计算聚合后的邻居特征，后将节点自身特征与聚合后的邻居特征拼接，通过权重矩阵与激活函数完成特征更新得到第一层的节点特征，在学习过程中，于注意力修正层，综合节点度信息与基于节点特征距离的中间注意力系数计算修正后的注意力权重并归一化，以此优化边权重，增强特征表示，接着进行第二层GraphSAGE卷积操作，以加权求和方式聚合邻居特征并更新节点特征；

步骤五：将经过两层GraphSAGE卷积及注意力修正后的特征输入到全连接层进行特征融合，并通过线性层实现实体节点的分类；

步骤六：对原始文档进行图采样，获取实体节点对，边特征由实体节点之间的关系特征、实体节点的阅读顺序特征、极坐标特征，步骤四经过图神经网络学习后的实体节点特征组成，四种特征融合得到最终边特征；

步骤七：将步骤六中最终边特征输入到全连接层进行边分类。

2.根据权利要求1所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤一具体包括：针对输入的视觉文档，使用OCR技术提取文档内实体文本Text及其文本框坐标position＝[x1,y1,x2,y2]，其中上述坐标依次表征文本框左上角与右下角坐标，获取文档节点的宽度W与高度H，作为后续操作的数据基础与依据；

借助resnet50骨干网络与RoI对齐层来提取文档实体节点i的图像特征Vimage，其遵循如下公式所示：Vimage＝Linear(Poolalign(Regioni,ResNet50(I))),0≤i≤n其中Linear表示线性投影层，Pool表示RoIAlign池化操作，Regioni表示该实体节点的区域，I表示输入到骨干网络的原始文档图像；

通过spacy模型获取文档的实体节点文本特征Vtext如下述公式：Vtext＝Linear(spaCy(ti)),0≤i≤n

其中Linear是一个线性投影层，spaCy表示文本特征提取模型，ti表示该实体的文本内容；根据文本框信息定义文档实体节点布局特征Vlayout，如下述公式：Vlayout＝Linear([x1,y1,x2,y2,Cx,Cy,Bw,Bh]),0≤i≤n其中Linear是一个线性投影层，x1,y1,x2,y2,Cx,Cy,Bw,Bh分别表示实体节点文本框的左上角坐标、右下角坐标，中心坐标、宽和高。

3.根据权利要求2所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤二中多模态特征融合方法具体包括：将获取到的实体节点图像特征、实体节点文本特征、实体节点布局特征依次作为输入，特征定义如下：其中n表示实体节点的个数，dimage、dtext、dlayout分别表示三种模态特征的维度，计算注意力权重，将不同维度的向量通过线性投影层映射到一个公共的语义空间，表达式如下：将映射后的向量进行拼接，通过一个全连接层，权重矩阵为W，再使用softmax函数进行归一化，得到注意力权重wattn，表达式如下：wattn＝softmax(VconcatW)

[wimage,wtext,wlayout]＝Wattn

用计算得到的注意力权重向量分别对原始的布局特征、图像特征和文本特征进行加权融合,得到融合后的实体节点特征，表达式如下：Entityfusion‑feat＝wimageVimage′+wtextVtext′+wlayoutVlayout。

4.根据权利要求3所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤三具体包括：根据步骤一获取到的文档中实体节点的文本框左上角、右下角坐标以及中心点坐标，基于平方欧式距离，定义实体间距离，表达式如下：Disij＝AVG(DLij+DRij+DCij)0≤i≤n,0≤j≤n,i！＝j其中DLij、DRij、DCij分别表示实体之间在左上角点、右下角点、中心点的距离；

根据上述公式，自定义选取该文档实体节点总数量的三分之一用于生成该实体节点边邻接矩阵邻接矩阵为二维矩阵，存放有关联的实体节点下标。

5.根据权利要求4所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤四中注意力修正的GraphSAGE模型具体包括：设G＝(V,E)为图，其中V是实体节点集合，E是边集合，对于节点v∈V，其特征向量为xv，邻居节点集合为N(v)；

对于边(u,v)∈E，其中u∈N(v)，基于节点特征距离计算注意力权重wvu，使用欧几里得距离来度量节点特征距离，计算表达式为：获取步骤二中的实体节点特征Entityfusion‑feat，步骤三中的邻接矩阵Edge_Index，将实体节点特征与邻接矩阵输入到第一层GraphSAGE卷积层中，聚合邻居节点特征时考虑注意力权重计算公式为：SAGE目的是根据邻接矩阵通过邻接节点更新该实体节点，以下是SAGE的模型节点v的特征传递方式：其中CONCAT操作是将节点本身特征和聚合后的邻居特征拼接起来；

在基于图结构的注意力修正层中，对第一层中边(u,v)计算的注意力权重wvu进行修正，首先计算节点度相关信息，表达式如下：其中dv为节点v在图G中的度，其中du为节点u在图G中的度；

计算度相关的归一化因子表达式如下：

计算修正后的注意力权重并使用softmax函数进行归一化，表达式如下：将第一层的输出输入到第二层GraphSAGE卷积层中，类似第一层，先根据修正后的边权重聚合邻居特征,然后更新节点特征表达式如下：通过上述修正后的GraphSAGE模型层可以得到实体节点最终的特征表示：EntityFinal‑feat＝GraphSAGE_Revised(TB,Entityfusion‑feat)其中TB为文本框坐标。

6.根据权利要求1所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤五具体包括：对于节点分类任务，将实体节点特征EntityFinal‑feat输入到全连接层进行融合特征，并使h*c

用线性层W 对实体节点进行分类，其中H表示隐藏层，c表示实体节点的类别数量。

7.根据权利要求1所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤六中图采样方法具体包括：针对每一个实体文本框，于上、下、左、右四个方向分别执行操作：先确定位置最近邻的文本框并构建连接，随后确定次近邻位置的文本框完成连接构建，最终形成表征这些连接关系的索引列表edge_index_list，精准确定实体节点间符合条件的关联情形；

定义边特征的方法为：

由以下的基本特征以及连接关系的索引列表edge_index_list基础上定义边特征：对于实体节点之间的关系特征Frelation：根据关系建议，假设两个节点有潜在的关系，定义一个主节点S，另一个副节点O，并二者关系之间的关系用R表示，因此有：S S S S O O O O

其中x、y、w 、h表示主节点的中心点坐标、宽和高，x、y 、w 、h表示副节点的中心点坐标、宽和高；

获取S、O的最小边界框为R，R有如下定义：

实体节点之间的关系特征定义可为：

对于实体节点自然阅读顺序编码Frope：先对于每个实体节点i，设其相邻实体节点为j，以它们之间的索引差作为实体节点对(i,j)的序列长度，为相邻实体节点赋予全新且独特的阅读顺序码，构建起实体节点对的序列长度体系，依据已构建的阅读顺序索引体系，对于每个实体节点对的阅读顺序索引，将其分别代入正弦编码矩阵和余弦编码矩阵获取编码信息，全面且细致地对阅读顺序索引执行编码操作,表达式如下：Frope＝RoPE_Emb(pos)

对于极坐标特征Fpolar：为根据图采样的所生成的实体节点对，去获取每个实体节点对的距离、角度，通过独热编码方式，对距离和角度对集合进行编码，具体公式如下：Fpolar＝one_hot(distances,angles,num_polar_bins)其中distances、angles分别为实体节点对的距离集合、角度集合，num_polar_bins表示为编码后的维度。

对于实体节点对特征：获取连接关系的索引列表edge_index_list作为实体节点对，获取步骤四中融合图像、文本、布局三种模态的实体节点特征EntityFinal‑feat，得到实体节点对特征Fpair，具体公式如下：其中Entityi，Entityj表示实体节点对中实体节点i和实体节点j的节点特征；

融合上述四种特征，可以得到最终的边特征Fedge，表达式如下：

8.根据权利要求1所述的基于注意力修正的图神经网络的视觉文档信息抽取方法，其特征在于：所述步骤七具体包括：先获取步骤六的边特征Fedge，表示节点关联关键数据表征，输入全连接层，完成特征融h*2合，用含特定权重矩阵W 的线性层，依权重参数与激活函数推断节点对边的存在性，最终将符合连接规则与阈值判定、相互连通的节点确定为最终布局实例。