利索能及
我要发布
收藏
专利号: 201910880737X
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种证件信息的分类定位的训练方法,其特征在于,所述方法包括:

所述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测,提取A个检测框,并获取所述A个检测框的第一边框信息和所述A个检测框的第一次分类标签,所述第一目标图像包含第一证件,A为大于0的正整数;

所述服务器根据所述第一证件的结构化信息特征调整所述A个检测框的边框信息和所述A个检测框的分类标签,生成所述A个检测框的第二边框信息和所述A个检测框的第二次分类标签。

2.根据权利要求1所述的方法,其特征在于,所述A个检测框包括N个文本行检测框和M个非文本行检测框,所述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测,提取A个检测框,包括:所述服务器利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测,提取N个文本行检测框;

所述服务器利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测,提取M个非文本行检测框。

3.根据权利要求2所述的方法,其特征在于,所述服务器利用基于YOLO网络的所述分类定位模型对第一目标图像中的特征信息进行检测,提取N个文本行检测框,包括:所述服务器利用所述分类定位模型从所述第一目标图像中提取n个文本头检测框和n个文本尾检测框,所述n个文本头检测框中的第一文本头检测框中包括所述第一目标图像中的第一文本行的前B个字符,所述第一文本行的前B个字符的长度为L1,所述文本头检测框还包括所述B个字符之前的长度为t*L1的非文本图像区域,所述n个文本尾检测框中的第一文本尾检测框包括所述第一文本行的后C个字符,所述第一文本行的后C个字符的长度为L2,所述文本尾检测框还包括所述C个字符之后的长度为t*L2的非文本图像区域,B和C为正整数,t大于零小于等于1;

所述服务器基于文本行的斜率一致性和就近原则将所述n个文本头检测框和所述n个文本尾检测框进行匹配,获得所述n个文本行检测框;

所述服务器对所述n个文本行检测框进行修正,去除所述文本行检测框中的非文本图像区域,获得n个预测框;

所述服务器利用非极大值抑制算法对所述n个预测框进行过滤,获得所述N个文本行检测框、所述N个文本行检测框的目标检测分数和所述N个文本行检测框的第一次分类标签。

4.根据权利要求2所述的方法,其特征在于,所述服务器利用所述分类定位模型对第一目标图像中的特征信息进行检测,提取M个非文本行检测框,包括:所述服务器利用所述分类定位模型对所述第一目标图像进行特征提取,获得m张a*a尺寸大小的特征图,所述特征图为包含非文本行信息的图像;

所述服务器对所述m张特征图中的非文本行信息进行中心坐标预测,基于所述中心坐标采用K-means聚类算法获取m个预测框的长和宽、所述m个预测框包含非文本行特征信息的置信度和所述m个预测框内非文本行特征信息所属类别的置信度;

所述服务器利用非极大值抑制算法对所述m个预测框进行过滤,获得所述M个非文本行检测框、所述M个非文本行检测框的目标检测分数和所述M个非文本行检测框的第一次分类标签。

5.根据权利要求1至4任一项所述的方法,其特征在于,所述服务器利用基于YOLO网络的分类定位模型对第一目标图像中的特征信息进行检测,提取A个检测框之前,所述方法还包括:对所述YOLO网络进行预训练;

所述对所述YOLO网络进行预训练,包括:

建立样本数据库,所述样本数据库包含用于训练所述YOLO网络的图像样本;

初始化所述YOLO网络的训练参数;

从所述样本数据库中随机选择图像样本作为训练样本;

将所述训练样本作为输入向量输入所述YOLO网络;

获取所述YOLO网络输出向量,即所述训练样本的特征图;

根据所述输出向量优化所述训练参数,建立所述图像样本和所述图像样本的特征图之间的残差网络。

6.一种证件信息的分类定位训练的装置,其特征在于,所述装置包括:

第一提取单元,用于利用基于YOLO网络的分类定位模型对第一目标图像中的A个特征信息进行检测,提取A个检测框,并获取所述A个检测框的第一边框信息和所述A个检测框的第一次分类标签,所述第一目标图像包含第一证件,A为大于0的正整数;

调整单元,用于根据所述第一证件的结构化信息特征调整所述A个检测框的边框信息和所述A个检测框的分类标签,生成所述A个检测框的第二边框信息和所述A个检测框的第二次分类标签。

7.根据权利要求6所述的装置,其特征在于,所述A个检测框包括N个文本行检测框和M个非文本行检测框;所述提取单元,包括:文本提取单元,用于利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测,提取N个文本行检测框;

非文本提取单元,用于利用基于YOLO网络的所述分类定位模型对所述第一目标图像中的特征信息进行检测,提取M个非文本行检测框。

8.根据权利要求7所述的装置,其特征在于,所述文本提取单元,包括:

检测框提取单元,用于利用所述分类定位模型从所述第一目标图像中提取n个文本头检测框和n个文本尾检测框,所述n个文本头检测框中的第一文本头检测框中包括所述第一目标图像中的第一文本行的前B个字符,所述第一文本行的前B个字符的长度为L1,所述文本头检测框还包括所述B个字符之前的长度为t*L1的非文本图像区域,所述n个文本尾检测框中的第一文本尾检测框包括所述第一文本行的后C个字符,所述第一文本行的后C个字符的长度为L2,所述文本尾检测框还包括所述C个字符之后的长度为t*L2的非文本图像区域,B和C为正整数,t大于零小于等于1;

匹配单元,用于基于文本行的斜率一致性和就近原则将所述n个文本头检测框和所述n个文本尾检测框进行匹配,获得所述n个文本行检测框;

修正单元,用于对所述n个文本行检测框进行修正,去除所述文本行检测框中的非文本图像区域,获得n个预测框;

过滤单元,用于利用非极大值抑制算法对所述n个预测框进行过滤,获得所述N个文本行检测框、所述N个文本行检测框的目标检测分数和所述N个文本行检测框的第一次分类标签。

9.一种服务器,其特征在于,包括处理器、通信设备和存储器,所述处理器、通信设备和存储器相互连接,其中,所述存储器用于存储应用程序代码,所述处理器被配置用于调用所述应用程序代码,执行如权利要求1至5任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至5任意一项所述的方法。