1.一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的票据信息识别系统,所述票据信息识别系统被所述处理器执行时实现如下步骤:在收到待处理的票据图片后,利用预先训练好的票据图片识别模型对收到的票据图片中的票据类别进行识别,并输出票据的类别识别结果;
利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
根据预先确定的待识别字段与第一识别模型的映射关系,确定各个所述待识别字段对应的第一识别模型,针对各个所述待识别字段,调用对应的第一识别模型对倾斜矫正后的票据图片的行字符区域进行区域识别,以分别识别出包含各个所述待识别字段的字符信息的目标行字符区域;
根据预先确定的待识别字段与第二识别模型的映射关系,确定各个所述待识别字段对应的第二识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的第二识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,并将识别的各个所述待识别字段的字符信息与所述票据图片进行关联映射;
所述票据图片识别模型的训练过程如下:
S1、为每一个预设票据图片类别准备预设数量的标注有对应的图片类别的票据图片样本;
S2、将每一个预设票据图片类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
S3、利用所述训练集训练所述票据图片识别模型,并利用所述验证集对经所述训练集训练完成后的所述票据图片识别模型的准确率进行验证;
S4、若准确率大于或者等于预设准确率,则训练结束;
S5、若准确率小于预设准确率,则增加每一个预设票据图片类别对应的票据图片样本的数量,并重新执行步骤S2、S3。
2.如权利要求1所述的电子装置,其特征在于,所述票据图片识别模型的训练过程之前,对票据图片样本做如下处理:根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整;当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
3.如权利要求1所述的电子装置,其特征在于,所述第一识别模型为卷积神经网络模型,针对一个待识别字段对应的第一识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C3、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C4、利用提取的各个待训练的样本图片进行模型训练,以生成所述第一识别模型,并利用各个待验证的样本图片对生成的所述第一识别模型进行验证;
C5、若验证通过率大于等于预设阈值,则训练完成;
C6、若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4。
4.如权利要求1所述的电子装置,其特征在于,所述第二识别模型为时间递归神经网络模型,针对一个待识别字段对应的第二识别模型的训练过程如下:针对该待识别字段,获取预设数量的票据图片样本,每个票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所含的该待识别字段的字符信息;
将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的图片样本数量大于第二数据集中的图片样本数量,第一数据集作为训练集,第二数据集作为测试集;
将第一数据集中的图片样本送入时间递归神经网络模型进行模型训练,每隔预设时间,对模型使用第二数据集进行测试,以评估当前训练的模型效果;测试时,使用训练得到的模型对第二数据集中的图片样本进行字符信息识别,并和测试的图片样本的名称做对比,以计算识别的结果和该图片样本的名称的误差;若测试时的模型对图片样本识别的误差出现发散,则调整训练参数并重新训练;
若测试时的模型对图片样本识别的误差收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的第二识别模型。
5.一种票据信息识别方法,其特征在于,该票据信息识别方法包括步骤:
在收到待处理的票据图片后,利用预先训练好的票据图片识别模型对收到的票据图片中的票据类别进行识别,并输出票据的类别识别结果;
利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;
根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
根据预先确定的待识别字段与第一识别模型的映射关系,确定各个所述待识别字段对应的第一识别模型,针对各个所述待识别字段,调用对应的第一识别模型对倾斜矫正后的票据图片的行字符区域进行区域识别,以分别识别出包含各个所述待识别字段的字符信息的目标行字符区域;
根据预先确定的待识别字段与第二识别模型的映射关系,确定各个所述待识别字段对应的第二识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的第二识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,并将识别的各个所述待识别字段的字符信息与所述票据图片进行关联映射;
所述票据图片识别模型的训练过程如下:
S1、为每一个预设票据图片类别准备预设数量的标注有对应的图片类别的票据图片样本;
S2、将每一个预设票据图片类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
S3、利用所述训练集训练所述票据图片识别模型,并利用所述验证集对经所述训练集训练完成后的所述票据图片识别模型的准确率进行验证;
S4、若准确率大于或者等于预设准确率,则训练结束;
S5、若准确率小于预设准确率,则增加每一个预设票据图片类别对应的票据图片样本的数量,并重新执行步骤S2、S3。
6.如权利要求5所述的票据信息识别方法,其特征在于,所述票据图片识别模型的训练过程之前,对票据图片样本做如下处理:根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整;当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
7.如权利要求5或6所述的票据信息识别方法,其特征在于,所述第一识别模型为卷积神经网络模型,针对一个待识别字段对应的第一识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;
C2、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C3、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C4、利用提取的各个待训练的样本图片进行模型训练,以生成所述第一识别模型,并利用各个待验证的样本图片对生成的所述第一识别模型进行验证;
C5、若验证通过率大于等于预设阈值,则训练完成;
C6、若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4。
8.如权利要求5或6所述的票据信息识别方法,其特征在于,所述第二识别模型为时间递归神经网络模型,针对一个待识别字段对应的第二识别模型的训练过程如下:针对该待识别字段,获取预设数量的票据图片样本,每个票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所含的该待识别字段的字符信息;
将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的图片样本数量大于第二数据集中的图片样本数量,第一数据集作为训练集,第二数据集作为测试集;
将第一数据集中的图片样本送入时间递归神经网络模型进行模型训练,每隔预设时间,对模型使用第二数据集进行测试,以评估当前训练的模型效果;测试时,使用训练得到的模型对第二数据集中的图片样本进行字符信息识别,并和测试的图片样本的名称做对比,以计算识别的结果与该图片样本的名称的误差;若测试时的模型对图片样本识别的误差出现发散,则调整训练参数并重新训练;
若测试时的模型对图片样本识别的误差收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的第二识别模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求5-8中的任一项所述的票据信息识别方法。