利索能及
我要发布
收藏
专利号: 2019109835555
申请人: 商汤国际私人有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本识别方法,其特征在于,包括:

对文本图片的初始特征图进行池化处理,得到第一特征序列,所述第一特征序列包括多个第一特征切片;

基于所述第一特征序列,得到所述多个第一特征切片之间的依赖信息;

基于所述多个第一特征切片之间的依赖信息和所述第一特征序列,得到第二特征序列;

基于所述第二特征序列,得到所述文本图片的文本识别结果;

所述基于所述第一特征序列,得到所述多个第一特征切片之间的依赖信息,包括:对所述第一特征序列进行空洞卷积处理,得到空洞卷积处理结果;

对所述空洞卷积处理结果进行全连接处理,得到全连接处理结果;

基于所述全连接处理结果,得到所述多个第一特征切片之间的依赖信息;

所述基于所述全连接处理结果,得到所述多个第一特征切片之间的依赖信息,包括:对所述全连接处理结果进行非线性映射处理,得到映射结果;

将所述映射结果中包括的多个第一特征切片中两个相同特征切片的对应值替换为1,得到邻接矩阵,所述邻接矩阵包括所述多个第一特征切片中任意两个特征切片之间的依赖值;

所述基于所述多个第一特征切片之间的依赖信息和所述第一特征序列,得到第二特征序列,包括:对所述多个第一特征切片之间的依赖信息和所述第一特征序列进行图卷积处理,得到第二特征序列;

所述对所述多个第一特征切片之间的依赖信息和所述第一特征序列进行图卷积处理,得到第二特征序列,包括:将所述多个第一特征切片之间的依赖信息包括的邻接矩阵、所述邻接矩阵的度矩阵和所述第一特征序列进行图卷积,得到第二特征序列;

所述基于所述第二特征序列,得到所述文本图片的文本识别结果,包括:基于所述第二特征序列,得到所述第二特征序列包括的多个第二特征切片中每个第二特征切片的分类结果;

基于所述多个第二特征切片中每个第二特征切片的分类结果,得到所述文本图片的文本识别结果。

2.一种场景文本识别装置,其特征在于,包括:池化处理单元,用于对文本图片的初始特征图进行池化处理,得到第一特征序列,所述第一特征序列包括多个第一特征切片;

第一获取单元,用于基于所述第一特征序列,得到所述多个第一特征切片之间的依赖信息;

第二获取单元,用于基于所述多个第一特征切片之间的依赖信息和所述第一特征序列,得到第二特征序列;

第三获取单元,用于基于所述第二特征序列,得到所述文本图片的文本识别结果;

所述第一获取单元包括:

空洞卷积单元,用于对所述第一特征序列进行空洞卷积处理,得到空洞卷积处理结果;

全连接处理单元,用于对所述空洞卷积处理结果进行全连接处理,得到全连接处理结果;

第四获取单元,用于基于所述全连接处理结果,得到所述多个第一特征切片之间的依赖信息;

所述第四获取单元用于:

对所述全连接处理结果进行非线性映射处理,得到映射结果;以及将所述映射结果中包括的多个第一特征切片中两个相同特征切片的对应值替换为1,得到邻接矩阵,所述邻接矩阵包括所述多个第一特征切片中任意两个特征切片之间的依赖值;

所述第二获取单元用于对所述多个第一特征切片之间的依赖信息和所述第一特征序列进行图卷积处理,得到第二特征序列;

所述第二获取单元用于将所述多个第一特征切片之间的依赖信息包括的邻接矩阵、所述邻接矩阵的度矩阵和所述第一特征序列进行图卷积,得到第二特征序列;

所述第三获取单元用于:

基于所述第二特征序列,得到所述第二特征序列包括的多个第二特征切片中每个第二特征切片的分类结果;

基于所述多个第二特征切片中每个第二特征切片的分类结果,得到所述文本图片的文本识别结果。

3.一种文本识别装置,其特征在于,所述装置包括:输入装置、输出装置、存储器和处理器;其中,所述存储器中存储一组程序代码,且所述处理器用于调用所述存储器中存储的程序代码,执行如权利要求1所述的方法。

4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的方法。

5.一种包含指令的计算机程序产品,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1所述的方法。