利索能及
我要发布
收藏
专利号: 2019102519557
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种文本识别方法,其特征在于,所述方法包括:获取待识别图像的多个第一语义向量,所述待识别图像包含多个字符;

获取所述待识别图像中的至少一个已识别字符的第二语义向量;

根据所述至少一个已识别字符的第二语义向量,确定所述多个第一语义向量的注意力权重;包括:根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量,得到所述多个第一语义向量的注意力权重;包括:根据每个已识别字符的第二语义向量,预测高斯分布的均值;根据高斯分布的均值,得到与每个已识别字符对应的权重限制参数,其中,该权重限制参数为服从单峰分布的序列;

根据所述权重限制参数和所述多个第一语义向量的原始注意力权重,得到所述多个第一语义向量的注意力权重;

根据所述多个第一语义向量的注意力权重,确定所述待识别图像的识别结果。

2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像的多个第一语义向量,包括:对待识别图像进行特征提取处理,得到所述待识别图像的特征信息;

对所述特征信息进行转换处理,得到多个特征向量;

编码所述多个特征向量,得到所述待识别图像的多个第一语义向量。

3.根据权利要求1或2所述的方法,其特征在于,所述获取所述待识别图像中的至少一个已识别字符的第二语义向量,包括:对所述至少一个已识别字符进行词嵌入处理,得到所述至少一个已识别字符对应的词向量;

编码所述至少一个已识别字符对应的词向量,得到所述至少一个已识别字符对应的第二语义向量。

4.根据权利要求3所述的方法,其特征在于,所述编码所述至少一个已识别字符对应的词向量,得到所述至少一个已识别字符对应的第二语义向量,包括:将所述已识别字符对应的词向量编码为维度与所述第一语义向量维度相同的第二语义向量。

5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量,得到所述多个第一语义向量的注意力权重,包括:根据所述至少一个已识别字符的第二语义向量,得到单峰分布参数;包括:根据每个已识别字符的第二语义向量,预测高斯分布的均值和标准差;基于高斯分布的均值和标准差,得到单峰分布参数,其中,该单峰分布参数为服从高斯分布的序列;

基于所述单峰分布参数,得到所述多个第一语义向量的注意力权重。

6.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果,包括:根据所述多个第一语义向量的注意力权重和所述多个第一语义向量,得到至少一个目标特征向量;

根据所述至少一个目标特征向量,确定当前跳的识别结果;

根据所述当前跳的识别结果,确定所述待识别图像的识别结果。

7.根据权利要求6所述的方法,其特征在于,所述至少一个已识别字符包括在当前跳之前已经识别的所有字符;

所述根据所述至少一个目标特征向量,确定当前跳的识别结果,包括:确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果;

将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

8.根据权利要求6所述的方法,其特征在于,所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符,所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量;

所述根据所述至少一个目标特征向量确定当前跳的识别结果,包括:确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果;

将所述目标特征向量对应的识别结果作为当前跳的识别结果。

9.一种电子装置,其特征在于,所述电子装置包括:第一获取单元,用于获取待识别图像的多个第一语义向量,所述待识别图像包含多个字符;

第二获取单元,用于获取所述待识别图像中的至少一个已识别字符的第二语义向量;

确定单元,用于根据所述至少一个已识别字符的第二语义向量,确定所述多个第一语义向量的注意力权重;包括:根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量,得到所述多个第一语义向量的注意力权重;包括:根据每个已识别字符的第二语义向量,预测高斯分布的均值;根据高斯分布的均值,得到与每个已识别字符对应的权重限制参数,其中,该权重限制参数为服从单峰分布的序列;

根据所述权重限制参数和所述多个第一语义向量的原始注意力权重,得到所述多个第一语义向量的注意力权重;

识别单元,用于根据所述多个第一语义向量的注意力权重,确定所述待识别图像的识别结果。

10.根据权利要求9所述的装置,其特征在于,在获取待识别图像的多个第一语义向量时,所述第一获取单元,具体用于:对待识别图像进行特征提取处理,得到所述待识别图像的特征信息;

对所述特征信息进行转换处理,得到多个特征向量;

编码所述多个特征向量,得到所述待识别图像的多个第一语义向量。

11.根据权利要求9或10所述的装置,其特征在于,在获取所述待识别图像中的至少一个已识别字符的第二语义向量时,所述第二获取单元,具体用于:对所述至少一个已识别字符进行词嵌入处理,得到所述至少一个已识别字符对应的词向量;

编码所述至少一个已识别字符对应的词向量,得到所述至少一个已识别字符对应的第二语义向量。

12.根据权利要求11所述的装置,其特征在于,在编码所述至少一个已识别字符对应的词向量,得到所述至少一个已识别字符对应的第二语义向量时,所述第二获取单元,具体用于:将所述已识别字符对应的词向量编码为维度与所述第一语义向量维度相同的第二语义向量。

13.根据权利要求9所述的装置,其特征在于,在根据所述至少一个已识别字符的第二语义向量和所述多个第一语义向量,得到所述多个第一语义向量的注意力权重时,所述确定单元,具体用于:根据所述至少一个已识别字符的第二语义向量,得到单峰分布参数;包括:根据每个已识别字符的第二语义向量,预测高斯分布的均值和标准差;基于高斯分布的均值和标准差,得到单峰分布参数,其中,该单峰分布参数为服从高斯分布的序列;

基于所述单峰分布参数,得到所述多个第一语义向量的注意力权重。

14.根据权利要求9所述的装置,其特征在于,在根据所述多个第一语义向量的注意力权重确定所述待识别图像的识别结果时,所述识别单元,具体用于:根据所述多个第一语义向量的注意力权重和所述多个第一语义向量,得到至少一个目标特征向量;

根据所述至少一个目标特征向量,确定当前跳的识别结果;

根据所述当前跳的识别结果,确定所述待识别图像的识别结果。

15.根据权利要求14所述的装置,其特征在于,所述至少一个已识别字符包括在当前跳之前已经识别的所有字符;

在根据所述至少一个目标特征向量,确定当前跳的识别结果时,所述识别单元,具体用于:确定所述至少一个目标特征向量中的每个目标特征向量对应的识别结果;

将所述至少一个目标特征向量对应的识别结果作为当前跳的识别结果。

16.根据权利要求15所述的装置,其特征在于,所述至少一个已识别字符包括所述当前跳的上一跳识别出的字符,所述至少一个目标特征向量包含与所述上一跳识别出的字符对应的目标特征向量;

在根据所述至少一个目标特征向量确定当前跳的识别结果时,所述识别单元,具体用于:确定所述与所述上一跳识别出的字符对应的目标特征向量对应的识别结果;

将所述目标特征向量对应的识别结果作为当前跳的识别结果。

17.一种电子装置,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机可读指令,所述处理器用于调用所述存储器中存储的指令,以执行权利要求1‑8任一项所述的方法。

18.一种计算机可读存储介质,其特征在于,其用于存储计算机程序,其中,当所述计算机程序被处理器执行时,所述处理器实现如权利要求1‑8任一项所述的方法。