利索能及
我要发布
收藏
专利号: 2021109452593
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-02-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文字识别方法,包括:

采用骨干网络对待识别的目标图像进行特征提取,得到特征图;

将所述特征图输入第一网络,以采用所述第一网络预测所述特征图中的各特征点是否属于文本框,以及所属的文本框在所述目标图像中的位置;

将所述特征图输入第二网络,以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系;其中,所述第二网络包括第一分支和第二分支;根据所述第一分支的输出,确定所述特征图中各特征点对应的目标中心点坐标;其中,所述目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心;根据所述第二分支的输出,确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型;

根据各所述文本框的位置,对所述目标图像中对应图像内容进行文字识别,得到各文本框对应的文字内容;

根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息。

2.根据权利要求1所述的方法,其中,所述根据所述第一分支的输出,确定所述特征图中各特征点对应的目标中心点坐标,包括:读取所述第一分支输出的几何信息图,其中,所述几何信息图中包括各特征点对应的向量;其中,所述向量从对应的特征点指向所述目标中心点;

根据各特征点的向量,确定各特征点对应的目标中心点坐标。

3.根据权利要求1所述的方法,其中,所述根据所述第二分支的输出,确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型,包括:读取所述第二分支输出的分值信息图,其中,所述分值信息图中包括各特征点对应的分值;其中,所述分值与所述关联关系类型具有对应关系;

根据各特征点对应的分值,确定各特征点所属文本框与所述目标文本框之间的关联关系类型。

4.根据权利要求1‑3任一项所述的方法,其中,所述关联关系包括一对一关联,所述根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息,包括:针对任意的两文本框,在所述关联关系为一对一关联的情况下,根据所述两文本框对应文字内容,生成一条结构化信息。

5.根据权利要求1‑3任一项所述的方法,其中,所述关联关系包括多对一关联,所述根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息,包括:针对任意的至少三个文本框,在所述关联关系为多对一关联的情况下,对所述至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并,得到合并内容;

根据所述至少三个文本框中作为所述属性项的文本框对应的文字内容,以及对应的所述合并内容,生成一条结构化信息。

6.一种文字识别装置,包括:

特征提取模块,用于采用骨干网络对待识别的目标图像进行特征提取,得到特征图;

第一预测模块,用于将所述特征图输入第一网络,以采用所述第一网络预测所述特征图中的各特征点是否属于文本框,以及所属的文本框在所述目标图像中的位置;

第二预测模块,用于将所述特征图输入第二网络,以采用所述第二网络预测所述特征图中各特征点所属文本框之间的关联关系;

识别模块,用于根据各所述文本框的位置,对所述目标图像中对应图像内容进行文字识别,得到各文本框对应的文字内容;

组织模块,用于根据各文本框之间的关联关系,对各文本框对应的文字内容进行组织得到结构化信息;

其中,所述第二预测模块,包括:

处理单元,用于将所述特征图输入所述第二网络,其中,所述第二网络包括第一分支和第二分支;

第一确定单元,用于根据所述第一分支的输出,确定所述特征图中各特征点对应的目标中心点坐标;其中,所述目标中心点是对应特征点所属文本框存在关联关系的目标文本框的中心;

第二确定单元,用于根据所述第二分支的输出,确定所述特征图中各特征点所属文本框与所述目标文本框之间的关联关系类型。

7.根据权利要求6所述的装置,其中,所述第一确定单元,包括:第一读取子单元,用于读取所述第一分支输出的几何信息图,其中,所述几何信息图中包括各特征点对应的向量;其中,所述向量从对应的特征点指向所述目标中心点;

第一确定子单元,用于根据各特征点的向量,确定各特征点对应的目标中心点坐标。

8.根据权利要求6所述的装置,其中,所述第二确定单元,包括:第二读取子单元,用于读取所述第二分支输出的分值信息图,其中,所述分值信息图中包括各特征点对应的分值;其中,所述分值与所述关联关系类型具有对应关系;

第二确定子单元,用于根据各特征点对应的分值,确定各特征点所属文本框与所述目标文本框之间的关联关系类型。

9.根据权利要求6‑8任一项所述的装置,其中,所述关联关系包括一对一关联,所述组织模块,包括:第一生成单元,用于针对任意的两文本框,在所述关联关系为一对一关联的情况下,根据所述两文本框对应文字内容,生成一条结构化信息。

10.根据权利要求6‑8任一项所述的装置,其中,所述关联关系包括多对一关联,所述组织模块,包括:合并单元,用于针对任意的至少三个文本框,在所述关联关系为多对一关联的情况下,对所述至少三个文本框中作为属性值的至少两个文本框对应的文字内容进行合并,得到合并内容;

第二生成单元,用于根据所述至少三个文本框中作为所述属性项的文本框对应的文字内容,以及对应的所述合并内容,生成一条结构化信息。

11. 一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑5中任一项所述的方法。