1.一种基于行文本框分词算法的文本内容提取识别方法,包括如下步骤:(1)针对关于书本、试卷的文本图像,先对图像进行预处理,然后采用现有的文本检测算法将图像中所有行文本框的位置信息提取出来;
(2)采用现有的目标检测模型将指向题目的手部区域以矩形框的形式框选出来,进而在手部区域内检测出手指各关键节点的位置信息;
(3)利用行文本框以及手指关键节点的位置信息,将手指指向词语所在的行文本框提取出来作为目标文本框,并利用现有的文本识别方法识别出目标文本框内的字符内容;
(4)利用现有的分词算法对目标文本框内的文字内容进行分词处理;
(5)计算目标文本框内每个词语和标点符号在x轴上相对于目标文本框初始位置的长度以及手指指尖节点在x轴上相对于目标文本框初始位置的长度;
(6)利用步骤(5)计算得到的信息进行对比,根据对比结果从目标文本框中识别出手指所指向的词语。
2.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中对图像进行预处理包括了图像透视变换以及均值滤波去噪处理,其中图像透视变换采用的变换矩阵由拍摄图片的高度和角度自动进行调节。
3.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(1)中采用基于PaddleOCR的文本检测算法将图像中的文字框识别提取出来,在使用Paddle预训练模型的基础上,利用关于书本、试卷的文本图像数据集进行训练,可有效提取出包括文字、标点符号、下划线在内的行文本框。
4.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(2)中采用YOLOv5模型将指向题目的手部区域以矩形框的形式框选出来,同时利用骨骼检测将手指各关键节点的位置信息检测出来。
5.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(3)中提取得到的目标文本框即距离手指指尖节点最近的行文本框,进而采用RNN模型识别目标文本框内的字符内容,在使用RNN预训练模型的基础上,利用关于书本、试卷的文本图像数据集进行训练,可有效识别出包括文字、标点符号、下划线在内的各种字符内容。
6.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(4)中采用jieba分词算法对目标文本框内的文字内容进行分词处理。
7.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(5)的具体实现过程如下:首先,计算目标文本框的宽度x_width;
x_width=x_left‑x_right
其中:x_left和x_right分别为目标文本框左上顶点和右上顶点的x轴坐标值;
然后,计算目标文本框内字符占文本框的平均宽度sing_word_len;
sing_word_len=x_width/sing_word_sums其中:sing_word_sums为文本框中字符个数;
进而,计算目标文本框内每个词语和标点符号在x轴上相对于目标文本框内初始位置的长度并保存,具体地:若当前词语或标点符号在目标文本框内为从左到右的第一个词语或标点符号,则:words_len=term_nums*sing_word_len其他情况下,则:
words_len=(term_nums*sing_word_len)+pred_words_len其中:words_len为当前词语或标点符号在x轴上相对于目标文本框内初始位置的长度,term_nums为当前词语的字符个数,pred_words_len为上一个词语或标点符号相对于目标文本框初始位置的长度;
最后,计算手指指尖节点在x轴上相对于目标文本框初始位置的长度relative_x1;
relative_x1=x1‑x_left
其中:x1为手指指尖节点的x轴坐标值。
8.根据权利要求1所述的文本内容提取识别方法,其特征在于:所述步骤(6)的具体实现方式为:在目标文本框内从左到右逐个使每个词语和标点符号在x轴上相对于目标文本框初始位置的长度与手指指尖节点在x轴上相对于目标文本框初始位置的长度relative_x1进行比较,若当前词语或标点符号在x轴上相对于目标文本框初始位置的长度words_len>relative_x1,则排除当前词语或标点符号并判断下一个,直至找到words_len≤relative_x1对应的词语或标点符号;若找到的是词语,则该词语即手指所指向的词语;若找到的是标点符号且该标点符号为目标文本框从左到右最后一个字符,则该标点符号前一个词语即手指所指向的词语,若该标点符号非目标文本框从左到右最后一个字符,则该标点符号后一个词语即手指所指向的词语。