1.一种基于行文本框纵向合并的文本内容提取识别方法,包括如下步骤:
(1)针对关于试卷、练习册的文本图像,先对图像进行预处理,然后采用现有的文本检测算法将图像中的所有文本框及其信息提取识别出来;
(2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来,进而在手部区域内检测出手指各关键节点的位置信息;
(3)利用文本框信息以及手指关键节点的位置信息,将手指指向属于同一道题目的所有文本框纵向合并成一个矩形框提取出来;
(4)利用现有的文本识别方法识别获取合并成的矩形框中的内容,该内容即为手指所指题目的文字描述。
2.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理,其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节。
3.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来,在使用Paddle预训练模型的基础上,利用关于试卷、练习册的文本图像数据集进行训练,可有效提取出包括文字、标点符号、下划线在内的文本框。
4.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中提取识别出的文本框信息包括文本框四个顶点的位置、文本框内的文字内容以及置信度。
5.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来,同时利用骨骼检测将手指各关键节点的位置信息检测出来。
6.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(3)的具体实现过程如下:
3.1根据手指指尖节点的位置信息,初步筛选符合条件的文本框;
3.2根据文本框的位置信息以及内容信息,从初步筛选保存的文本框集合中找出所指题目的所有文本框;
3.3将所指题目的所有文本框合并成一个矩形框。
7.根据权利要求6所述的文本内容提取识别方法,其特征在于:所述步骤3.1的具体实现方式为:首先从图像所有文本框中选出满足x_left≤x1≤x_right的文本框;然后在所选出的文本框中找出满足y_left<y1的文本框作为初步筛选结果;其中x_left为文本框左上顶点的x轴坐标值,x_right为文本框右上顶点的x轴坐标值,y_left为文本框左上顶点的y轴坐标值,x1和y1分别为手指指尖节点的x轴坐标值和y轴坐标值。
8.根据权利要求6所述的文本内容提取识别方法,其特征在于:所述步骤3.2的具体实现方式为:首先从初步筛选保存的文本框集合中找出离手指指尖节点最近的文本框记为T1且T1为所指题目的文本框,判断T1开头是否有题号,若有则停止搜索;若没有,则从所述文本框集合中找出T1之上最近的一个文本框记为T2,判断T1与T2是否满足以下关系,若不满足则舍弃T2并停止搜索;若满足则判定T2为所指题目的文本框,进而判断T2开头是否有题号,若有则停止搜索,若没有则依据上述继续向上搜索,直至判断完文本框集合中所有的文本框;
x3≤x2≤x4且frame_height≥frame_distance
其中:x2为T1中心点的x轴坐标值,x3为T2左上顶点的x轴坐标值,x4为T2右上顶点的x轴坐标值,frame_height为T2的框高,frame_distance为T2与T1之间的框距。
9.根据权利要求6所述的文本内容提取识别方法,其特征在于:所述步骤3.3的具体实现方式为:对于所指题目的所有文本框,找到这些文本框四个顶点中最大的x轴坐标值max_x、最大的y轴坐标值max_y、最小的x轴坐标值min_x、最小的y轴坐标值min_y,然后确立左下顶点坐标为(min_x,min_y),右下顶点坐标为(max_x,min_y),右上顶点坐标为(max_x,max_y),左上顶点坐标为(min_x,max_y)的矩形框,该矩形框所框的文字就是手指指向题目的全部内容。