利索能及
我要发布
收藏
专利号: 2019105957958
申请人: 杭州海康威视数字技术股份有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-08-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像中文字的识别方法,其特征在于,所述方法包括:

获取待识别图像,其中,所述待识别图像中包括待识别文字;

将所述待识别图像输入预先训练完成的深度学习模型,获得所述待识别文字的语义信息及结构信息,其中,所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的,所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系;

基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果。

2.如权利要求1所述的方法,其特征在于,所述深度学习模型包括特征提取模型及特征识别模型;

所述将所述待识别图像输入预先训练完成的深度学习模型,根据所述待识别图像的图像特征,获得所述的待识别文字的语义信息及结构信息的步骤,包括:将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理,获得所述待识别图像的图像特征;

将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息。

3.如权利要求2所述的方法,其特征在于,所述特征识别模型包括第一注意力机制模型和第二注意力机制模型;

所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行处理,获得所述待识别文字的语义信息及结构信息的步骤,包括:将所述待识别图像的图像特征输入所述第一注意力机制模型,确定每个图像特征对应的第一权重,其中,所述第一权重表示对应的图像特征属于所述待识别文字的概率;

基于所述图像特征及其对应的第一权重,对所述图像特征进行加权求和,得到所述待识别文字的语义特征向量,作为所述待识别文字的目标语义向量;

根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系,确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息;

根据所述待识别文字的目标语义特征向量的长度,将所述待识别文字的目标语义特征向量展开为多个子特征向量;

将所述多个子特征向量输入所述第二注意力机制模型,确定每个子特征向量对应的第二权重,其中,所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率;

基于所述子特征向量及其对应的第二权重,对所述子特征向量进行加权求和,得到所述待识别文字的当前结构特征向量;

根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息;

根据所述子结构信息,确定所述待识别文字的结构信息。

4.如权利要求3所述的方法,其特征在于,所述根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系,确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息的步骤,包括:获取在所述待识别文字之前识别得到的其他文字的语义信息;

根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的预估语义信息;

基于所述预估语义信息以及所述其他文字的语义信息,确定所述待识别文字的目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息。

5.如权利要求3所述的方法,其特征在于,所述根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息的步骤,包括:获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息;

根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的预估结构信息;

基于所述预估结构信息以及所述其他结构部分的子结构信息,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息。

6.如权利要求2所述的方法,其特征在于,所述深度学习模型还包括特征编码模型;

在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息的步骤之前,所述方法还包括:将所述待识别图像的图像特征输入所述特征编码模型,对所述待识别图像的图像特征进行编码,得到多个特征图;

根据每个特征图的长宽高分别将每个特征图变形为特征向量;

将变形得到的多个特征向量确定为所述待识别图像的图像特征。

7.如权利要求1-6任一项所述的方法,其特征在于,所述基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果的步骤,包括:当所述语义信息表示明确语义时,根据所述结构信息对所述语义信息进行校正,确定所述待识别文字的最终的识别结果;

当所述语义信息表示不明确语义时,根据所述结构信息确定所述待识别文字的识别结果。

8.一种图像中文字的识别装置,其特征在于,所述装置包括:

待识别图像获取模块,用于获取待识别图像,其中,所述待识别图像中包括待识别文字;

语义结构信息确定模块,用于将所述待识别图像输入预先训练完成的深度学习模型,获得所述待识别文字的语义信息及结构信息,其中,所述深度学习模型为基于图像样本及其所包括的文字的语义信息及结构信息预先训练完成的,所述深度学习模型包括图像特征与文字的语义信息及结构信息的对应关系;

文字识别结果确定模块,用于基于所述语义信息及所述结构信息,确定所述待识别文字的识别结果。

9.如权利要求8所述的装置,其特征在于,所述深度学习模型包括特征提取模型及特征识别模型;

所述语义结构信息确定模块包括:

图像特征提取子模块,用于将所述待识别图像输入所述特征提取模型对所述待识别图像进行处理,获得所述待识别图像的图像特征;

图像特征识别子模块,用于将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息。

10.如权利要求9所述的装置,其特征在于,所述特征识别模型包括第一注意力机制模型和第二注意力机制模型;

所述图像特征识别子模块包括:

第一权重确定单元,用于将所述待识别图像的图像特征输入所述第一注意力机制模型,确定每个图像特征对应的第一权重,其中,所述第一权重表示对应的图像特征属于所述待识别文字的概率;

语义特征向量确定单元,用于基于所述图像特征及其对应的第一权重,对所述图像特征进行加权求和,得到所述待识别文字的语义特征向量,作为所述待识别文字的目标语义向量;

语义信息确定单元,用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系,确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息;

特征向量展开单元,用于根据所述待识别文字的目标语义特征向量的长度,将所述待识别文字的目标语义特征向量展开为多个子特征向量;

第二权重确定单元,用于将所述多个子特征向量输入所述第二注意力机制模型,确定每个子特征向量对应的第二权重,其中,所述第二权重表示对应的子特征向量属于当前识别的待识别文字的结构部分的概率;

当前结构特征向量确定单元,用于基于所述子特征向量及其对应的第二权重,对所述子特征向量进行加权求和,得到所述待识别文字的当前结构特征向量;

子结构信息确定单元,用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息;

结构信息确定单元,用于根据所述子结构信息,确定所述待识别文字的结构信息。

11.如权利要求10所述的装置,其特征在于,所述语义信息确定单元包括:语义信息获取子单元,用于获取在所述待识别文字之前识别得到的其他文字的语义信息;

预估语义信息确定子单元,用于根据所述第一注意力机制模型包括的语义特征向量与语义信息的对应关系以及所述目标语义特征向量确定所述目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的预估语义信息;

目标语义信息确定子单元,用于基于所述预估语义信息以及所述其他文字的语义信息,确定所述待识别文字的目标语义特征向量所对应的语义信息,作为所述目标语义特征向量所对应的目标语义信息。

12.如权利要求10所述的装置,其特征在于,所述子结构信息确定单元包括:子结构信息获取子单元,用于获取在所述当前结构特征向量所对应的子结构信息之前确定的所述待识别文字的其他结构部分的子结构信息;

预估结构信息确定子单元,用于根据所述第二注意力机制模型包括的结构特征向量与结构信息的对应关系确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的预估结构信息;

子结构信息确定子单元,用于基于所述预估结构信息以及所述其他结构部分的子结构信息,确定所述当前结构特征向量所对应的结构信息,作为所述当前结构特征向量所对应的子结构信息。

13.如权利要求9所述的装置,其特征在于,所述深度学习模型还包括特征编码模型;

所述装置还包括:

图像特征编码模块,用于在所述将所述待识别图像的图像特征输入所述特征识别模型对所述图像特征进行识别,获得所述待识别文字的语义信息及结构信息之前,将所述待识别图像的图像特征输入所述特征编码模型,对所述待识别图像的图像特征进行编码,得到多个特征图;

特征图变形模块,用于根据每个特征图的长宽高分别将每个特征图变形为特征向量;

图像特征确定模块,用于将变形得到的多个特征向量确定为所述待识别图像的图像特征。

14.如权利要求8-13任一项所述的装置,其特征在于,所述文字识别结果确定模块包括:第一识别结果确定子模块,用于当所述语义信息表示明确语义时,根据所述结构信息对所述语义信息进行校正,确定所述待识别文字的最终的识别结果;

第二识别结果确定子模块,用于当所述语义信息表示不明确语义时,根据所述结构信息确定所述待识别文字的识别结果。

15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。

16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。