利索能及
我要发布
收藏
专利号: 2022111776538
申请人: 深圳擎盾信息科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种表格类文本语义识别方法,其特征在于,包括:检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;

根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像;

对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息。

2.根据权利要求1所述的方法,其特征在于,检测待处理图像中的表格中的文本框位置,包括:获取单元格的角点坐标;

根据所述角点坐标,获取单元格的二值化图像;

根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息;

根据所述第一位置信息,确定所述文本框位置。

3.根据权利要求2所述的方法,其特征在于,根据所述角点坐标,获取单元格的二值化图像,包括:通过numpy工具,对各单元格进行截图,获取各单元格的第二图像;

通过cv2.cvtColor工具,将所述第二图像转换为单通道灰度图;

通过cv2.bitwise_not工具,将所述单通道灰度图转换为所述二值化图像。

4.根据权利要求2所述的方法,其特征在于,根据所述二值化图像的各像素点的像素值,确定所述文本内容在二值化图像中的第一位置信息,包括:通过np.where工具,获取所述二值化图像中像素值不等于0的像素点的坐标信息;

根据所述二值化图像中像素值不等于0的像素点的坐标信息,确定所述第一位置信息。

5.根据权利要求2所述的方法,其特征在于,根据所述第一位置信息,确定所述文本框位置,包括:通过cv2.minAreaRect工具,以及所述第一位置信息,获取文本内容的最小外接矩形;

将所述最小外接矩形确定为所述文本框,并确定所述文本框位置。

6.根据权利要求1所述的方法,其特征在于,根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像,包括:根据所述文本框位置,确定所述文本框相对于所述待处理图像的偏移角度;

确定偏移角度小于或等于预设角度阈值的目标文本框;

确定所述目标文本框的平均偏移角度;

根据所述平均偏移角度,对所述待处理图像进行角度校正,获得第一图像。

7.根据权利要求1所述的方法,其特征在于,对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息,包括:将所述第一图像编码为base64格式;

将base64格式的第一图像打包为json格式;

通过OCR识别接口,对json格式的第一图像进行识别,获得各文本内容的语义信息。

8.一种表格类文本语义识别装置,其特征在于,包括:检测模块,用于检测待处理图像中的表格中的文本框位置,其中,所述待处理图像为包括表格的图像,所述表格中包括文本内容,所述文本框为包围所述表格的单元格中的文本内容的矩形框;

校正模块,用于根据所述文本框位置,对所述待处理图像进行角度校正,获得第一图像;

语义模块,用于对所述第一图像中的文本内容进行识别,获得所述表格中各文本内容的语义信息。

9.一种表格类文本语义识别设备,其特征在于,包括:处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至7中任意一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。