1.一种文本识别方法,其特征在于,包括:
获取待识别文本;
将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;
获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述待识别文本的哈希值的每个字符对应的字符向量按照所述待识别文本的哈希值的字符顺序串接而成;
获取所述待识别文本中的待识别字符;
对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;
对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;
分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;
求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
2.根据权利要求1所述的一种文本识别方法,其特征在于,
所述分别求所述待识别文本的第一向量组、第二向量组、第三向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离之前,所述方法还包括:获取多个标准文本,对于每个所述标准文本,将该标准文本按照哈希算法计算得到该标准文本对应的哈希值;
获取与该标准文本的哈希值对应的第一标准文本向量组,其中,所述第一标准文本向量组由该标准文本的哈希值的每个字符对应的字符向量按照该标准文本的哈希值的字符顺序串接而成;
获取该标准文本中的标准字符;
对于每个标准字符,获取该标准字符中的部首作为与该标准字符对应的部首组合,将所述标准字符对应的部首组合输入第一机器学习模型得到该标准字符对应的第二向量,所述第二向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第二标准文本向量组;
对于每个所述标准字符,获取该标准字符的拼音,将该标准字符的拼音输入第二机器学习模型得到与该标准字符对应的第三向量,所述第三向量按照所述标准字符在该标准文本中的顺序排列成为该标准文本的第三标准文本向量组。
3.根据权利要求1所述的一种文本识别方法,其特征在于,
在所述获取待识别文本之后,还包括:统计所述待识别文本中字符的数量;
若所述待识别文本中的字符的数量达到设定值,则获取所述待识别文本中的待识别关键词;
将所述待识别关键词按照哈希算法计算得到所述待识别关键词对应的哈希值;
获取与所述待识别关键词的哈希值对应的第一词向量组,其中,所述第一词向量组由所述待识别关键词的哈希值的每个字符对应的字符向量按照所述待识别关键词的哈希值的字符顺序串接而成;
获取所述待识别关键词中的待识别字符;
对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第二词向量组;
对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别关键词中的顺序排列成为第三词向量组;
分别求所述待识别关键词的第一词向量组、第二词向量组、第三词向量组与标准关键词库中每个标准关键词的第一标准词向量组、第二标准词向量组、第三标准词向量组的向量距离,作为待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离;
求待识别关键词和每个标准关键词之间的第四向量距离、第五向量距离、第六向量距离的加权平均值,作为待识别关键词和每个标准关键词之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准关键词按照所述待识别关键词在所述待识别文本中的顺序组合,作为待识别文本的识别结果。
4.根据权利要求1所述的一种文本识别方法,其特征在于,
在所述求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值之后,所述方法还包括:获取所述加权平均值达到阈值的标准文本,
若所述加权平均值达到阈值的标准文本有多个,则将所述加权平均值达到阈值的多个标准文本发送给用户以供用户选择;
获取所述用户选择的标准文本,作为待识别文本的识别结果。
5.根据权利要求1所述的一种文本识别方法,其特征在于,
所述对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合之后,根据所述部首组合中的每个部首查找预设的部首语义对照表获得所述每个部首对应的语义;
根据所述部首在所述部首组合中的顺序将所述部首对应的语义组合;
将所述语义组合输入第三机器学习模型得到该待识别字符对应的第四向量,所述第四向量按照所述待识别字符在所述待识别文本中的顺序排列成为第四文本向量组;
所述方法还包括:
分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组、第四文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组、第四标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离;
求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离、第七向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
6.一种文本识别装置,其特征在于,包括:
文本获取模块,用于获取待识别文本;
第一计算模块,用于将所述待识别文本按照哈希算法计算得到所述待识别文本对应的哈希值;
第一向量组获取模块,用于获取与所述待识别文本的哈希值对应的第一文本向量组,其中,所述第一文本向量组由所述待识别文本的哈希值的每个字符对应的字符向量按照待识别文本的哈希值的字符顺序串接而成;
字符获取模块,用于获取所述待识别文本中的待识别字符;
第二向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符中的部首作为与该待识别字符对应的部首组合,将所述与该待识别字符对应的部首组合输入第一机器学习模型得到该待识别字符对应的第二向量,所述第二向量按照所述待识别字符在所述待识别文本中的顺序排列成为第二文本向量组;
第三向量组获取模块,用于对于每个所述待识别字符,获取该待识别字符的拼音,将该待识别字符的拼音输入第二机器学习模型得到与该待识别字符对应的第三向量,所述第三向量按照所述待识别字符在所述待识别文本中的顺序排列成为第三文本向量组;
第二计算模块,用于分别求所述待识别文本的第一文本向量组、第二文本向量组、第三文本向量组与标准文本库中每个标准文本的第一标准文本向量组、第二标准文本向量组、第三标准文本向量组的向量距离,作为待识别文件和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离;
第三计算模块,用于求待识别文本和每个标准文本之间的第一向量距离、第二向量距离、第三向量距离的加权平均值,作为待识别文本和每个标准文本之间的加权平均向量距离;
确定模块,用于将最小的加权平均向量距离对应的标准文本,作为待识别文本的识别结果。
7.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至5中任一项所述的方法。
8.一种电子装置,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至5中任一项所述的方法。