欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2018106793397
申请人: 淮阴工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述方法包括:(1)定义图纸图像为image,对image进行缩放、滤波、二值化、腐蚀与膨胀、连通域检测以及阈值过滤来进行文字区域切分,得到文字区域图像集result_boxes={box_image1,box_image2,...}中,其中box_image={box_x,box_y,box_width,box_height};

(2)定义循环变量box_image用来遍历result_boxes,对box_image进行灰度图投影来进行文字区域行切分,得到行切分结果集result_lines={line_image1,line_image2,...},其中line_image={line_x,line_y,line_width,line_height};

(3)定义循环变量line_image用来遍历result_boxes,对line_image使用基于全卷积神经网络的文字识别模型进行文字识别并将结果整合为文字结果集result_word_arr={line1,line2,...},其中的line={word1,word2,...},其中word为字符。

2.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(1)中对图纸图像进行文字识别的具体步骤如下:(1.1)定义图纸像素集image={C1,C2,...},其中C={R,G,B},使用平均法GC=avg(R,G,B)进行灰度化得到灰度化像素集gray_image={GC1,GC2,...};

(1.2)对gray_image进行中值滤波,得到滤波像素集blur_image={BC1,BC2,...};

(1.3)对blur_image使用OTSU方法进行二值化,以127为分割,前景为0,背景为255,得到二值化像素集threshold_image={TC1,TC2,...},其中TC∈{0,255};

(1.4)对threshold_image依次进行滤波核分别为[11,11]、[5,5]、[15,15]的全一矩阵的4次膨胀、3次腐蚀、4次膨胀后得到形态处理后像素集erode_image={EC1,EC2,...};

(1.5)对erode_image进行连通域检测,得到检测结果集boxes={box_image1,box_image2,...},其中box_image={box_x,box_y,box_width,box_height};

(1.6)定义循环变量box_image用来遍历boxes;

(1.7)定义文字区域切分结果集result_boxes={box1,box2,...};

(1.8)对boxes中的每一图像块box进行检测,如果box的宽度大于1800,则转到步骤(1.9)以处理粘在一起的文字图像块,否则直接放入result_boxes;

(1.9)将box_image膨胀3次,滤波核为形状为[4,4]的全一矩阵,得到像素集erode_box_image={EBC1,EBC2,...};

(1.10)对erode_box_imge的x轴方向进行灰度图投影得到投影集x_arr={x_sum1,x_sum2,...};

(1.11)输出文字区域结果集result_boxes。

3.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(2)中对文字图像块进行文字区域行切分的具体步骤如下:(2.1)定义循环变量line_image对result_lines进行遍历,对line_image进行灰度化,得到灰度化像素集gray_line_image={GLC1,GLC2,...};

(2.2)对gray_line_image向y轴方向求和,得到投影结果集y_add_arr={y_add1,y_add2,...};

(2.3)定义结束位置记录集end={end_idx1,end_idx2,...},定义开始位置记录集start={start_idx1,start_idx2,...};

(2.4)定义i=0,length为y_add_arr的长度;

(2.5)如果i

(2.6)如果y_addi>阈值T,转步骤(2.7),否则转步骤(2.9);

(2.7)如果y_addi-1

(2.8)将i加入end集合;

(2.9)如果y_addi-1>T,则转步骤(2.10),否则转步骤(2.5);

(2.10)将i加入start集合,转步骤(2.5);

(2.11)将start和end融合为文字区域行切分结果集result_lines={start_idx1,end_idx1,start_idx2,end_idx2,...}。

4.根据权利要求3所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(2.6)中阈值T的计算公式为:取Ymax为数组中的最大值,取Ymin为数组中的最小值,自适应阈值为T,精细度参数为F默认取50,则自适应阈值计算公式为:T=Y max-(Y max-Y min)/F

5.根据权利要求1所述的一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(3)中对整行文字使用全卷积神经网络进行文字识别的具体步骤如下:(3.1)将图像line_image调整大小为[40,700,1]的矩阵;

(3.2)将调整大小后的图像放入全卷积神经网络进行处理,获得一个结构为[192,

1806]的结果数组result_arr;

(3.3)返回的result_arr使用greedy_decoder方法进行解码获得文字识别结果并将所有结果整合为result_word_arr。

6.根据权利要求5所述一种全卷积神经网络的图纸版面分析与文字识别方法,其特征在于,所述步骤(3.2)中使用的全卷积神经网络的具体参数为:第一层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;

第二层为池化层,核心的参数为2×2×2;

第三层为卷积神经网络层,滤波核个数为64,滤波核的大小为3×3,padding为same,激活层为relu层;

第四层为池化层,核心的参数为2×2×2;

第五层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;

第六层为池化层,核心的参数为2×2×2;

第七层为卷积神经网络层,滤波核个数为128,滤波核的大小为3×3,padding为same,激活层为relu层;

第八层为池化层,核心的参数为2×2×2;

第九层为卷积神经网络层,滤波核个数为256,滤波核的大小为3×3,padding为valide,激活层为relu层;

第十层为池化层,核心的参数为2×2,stride的参数为2×1;

第十一层为卷积神经网络层,滤波核个数为512,滤波核的大小为3×3,padding为valid,激活层为relu层;

第十二层为全连接层,将输出的2×192×512的三维数组重组成192×1024的矩阵放入全连接层,全连接层的参数为1806,输出为192×1806,这就是识别出的结果矩阵,1806代表了可识别的文字的个数。