利索能及
我要发布
收藏
专利号: 2023101317094
申请人: 中南民族大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于seq2seq语言模型的文字识别方法,其特征在于:其方法步骤:S1、获取将要识别的含有文字信息的图片;

S2、对输入的图片进行图像分割、图像二值化和角度矫正预处理,去除图片中的干扰信息;

S3、将图片输入到融合CRNN文字识别模型和seq2seq语言模型的文字识别方法中,得到图片中的文字信息;

其中步骤S3的进一步方法步骤为:

S11、将预处理后的图片输入到CRNN文字识别模型中提取图片的特征,并对图片中的文字进行初步识别,得到CRNN文字识别模型的识别结果;

S12、将CRNN文字识别模型中提取到的概率向量和识别结果,输入到seq2seq语言模型中,预测出缺少的字符,得到seq2seq语言模型的识别结果;

S13、将CRNN文字识别模型与seq2seq语言模型的识别结果进行融合,重复步骤S11和步骤S12,直至满足预设置信度,得到图片的文字信息;

其CRNN文字识别模型的训练方法步骤为:

步骤S31、将收集到的文本识别数据集中的所有图片进行预处理,对处理后的图片中

10%‑30%的文字进行遮挡并进行数据增强后输入到预训练的CRNN文字识别模型中进行训练,得到CRNN文字识别模型输出的样本文字图片中每个文字的特征向量和概率向量;

步骤S32、将CRNN文字识别模型中的概率向量通过注意力机制进行优化,使CRNN文字识别模型可以更好的得到图片中被遮挡的文字的特征向量和概率向量;

步骤S33、将CRNN文字识别模型得到的概率向量和识别结果输入到seq2seq语言模型中进行训练,通过提取语言特征对CRNN文字识别模型的识别结果进行矫正并填补识别结果中缺少的字符,其中语言特征是在文字识别模型输出的概率向量和识别结果中进行上下文信息提取得到的;

步骤S34、根据CRNN文字识别模型和seq2seq语言模型的识别结果和特征向量,对seq2seq语言模型中解码器的参数进行更新,以供seq2seq语言模型根据新的参数,结合CRNN文字识别模型重复步骤S31至S34进行下一轮的训练,直到整个网络满足预设条件,得到最终的CRNN文字识别模型。

2.如权利要求1所述的一种基于seq2seq语言模型的文字识别方法,其特征在于:其中CRNN文字识别模型的识别方法步骤为:S21、获取图片的整张特征图;

S22、根据特征图,生成图片的特征向量;

S23、根据特征向量,得到每个特征向量所对应字符的概率向量和CRNN文字识别模型的识别结果;

S24、将概率向量、CRNN文字识别模型的识别结果输入到seq2seq语言模型中,以供seq2seq语言模型提取语言特征,矫正错字并填补被遮挡住的字符。

3.如权利要求1所述的一种基于seq2seq语言模型的文字识别方法,其特征在于:其中CRNN文字识别模型包括CNN卷积层、RNN循环层和CTC转录层。

4.如权利要求1所述的一种基于seq2seq语言模型的文字识别方法,其特征在于:其中CRNN文字识别模型通过CNN网络、BiLSTM网络、CTC函数和注意力机制构建得到。

5.如权利要求1所述的一种基于seq2seq语言模型的文字识别方法,其特征在于:其中seq2seq语言模型包括有编码器和解码器,编码器器通过语义编码连接于解码器。

6.如权利要求1所述的一种基于seq2seq语言模型的文字识别方法,其特征在于:其中seq2seq语言模型是通过层叠卷积神经网络和注意力机制构建得到。

7.一种如权利要求1‑6任一所述的基于seq2seq语言模型的文字识别方法的文字识别系统,其特征在于:包括文字图片获取模块,用于获取将要识别的含有文字信息的图片;

文字信息识别模块,将图片进行预处理后输入到融合CRNN文字识别模型和seq2seq语言模型的文字识别方法中,得到图片中的文字信息;

文字信息展示模块,用于展示识别到的文字信息,由seq2seq语言模型所填补的字符将被特别注明。