利索能及
我要发布
收藏
专利号: 2023104205349
申请人: 南通大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-13
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,包括以下步骤:

S11、对输入的档案扫描图像进行预处理,包括:1)图像边缘裁切、2)调整图像大小、3)合成数据集、4)数据集分组,以满足模型对输入数据集的要求;

S12、将处理好的档案扫描图像数据集放入角度校正和边缘切割网络模型中进行训练,该模型对输入图像进行特征提取;

在步骤S12中,所述角度校正和边缘切割网络模型包括:a)特征提取模块、b)纠偏模块、c)裁边模块;具体架构如下:

a)特征提取模块的网络深度为16层,该网络包含5个卷积层、3个全连接层和8个非线性激活层,其中每个非线性激活层都使用ReLU激活函数,该网络在每个全连接层后都使用了dropout层以防止过拟合,丢弃率分别为0.4、0.3和0.25,并使用softmax激活函数进行最终分类;

b)纠偏模块的网络深度为9层,该网络包含4个卷积层、4个池化层和1个全连接层,其中每个卷积层的卷积核大小为3×3,卷积核个数依次为32、64、128和256,每个池化层的池化窗口大小均为2×2,所有卷积层和池化层均使用ReLU激活函数,全连接层的神经元个数为1并使用sigmoid激活函数;

c)裁边模块的网络深度为4层,该网络包含3个卷积层和1个全连接层,其中每个卷积层的卷积核大小为3×3,卷积核个数依次为32、64、128,在全连接层中,第一个隐藏层的神经元数量为256,第二个隐藏层的神经元数量为128;此外,在纠偏模块和裁边模块之后加入一个自适应卷积模块和一个通道注意力模块,自适应卷积模块包含一个一维卷积层,两个自适应卷积层,一维卷积层输出通道数为1,第一个自适应卷积层输入通道数为1,输出通道数为2,第二个自适应卷积层输入通道数为2,输出通道数为1;其中,自适应卷积层的卷积核大小和形状都是动态生成的,可以根据输入特征图的大小和形状进行自适应调整;通道注意力模块包括一个全局平均池化层、两个全连接层、一个sigmoid激活层;全局平均池化层将输入特征图沿通道维度进行平均池化,得到一个一维特征图,两个全连接层分别将输入特征图沿通道维度进行压缩和扩展,得到两个一维特征图,sigmoid激活层将上述两个一维特征图相加并使用sigmoid函数进行归一化,得到一个通道注意力权重向量,最后将通道注意力权重向量与输入特征图进行逐通道的相乘,得到加权后的特征图;

S13、采用ACMCN模型先自动检测图像中的边缘,并根据边缘位置进行自动纠偏处理,再自动检测图像中的内容,并根据内容位置进行自动裁边处理,以去除多余的边缘部分;

S14、处理好的图像此时将被判断是否已经符合设定的纠偏裁边要求,即处理好的档案扫描图像中的所有直线的平均角度偏差值在[0°,1°]之间,所有边缘的边缘模糊度的值在[0,0.1]之间,若满足该要求,则输出处理好的图像;若不满足该要求,则继续迭代进行纠偏裁边处理,直到满足要求后输出处理好的图像;

S15、利用训练得到的模型处理档案扫描图像并输出经过自动纠偏裁边处理后的档案扫描图像。

2.根据权利要求1所述的一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,在步骤S11中,所述1):图像边缘裁切指先读取n张0度偏斜的已基本裁切好的原始图片,若原始图片不为0度,则手工纠偏为0度;然后进行下一轮的裁切操作,将图像上下左右各裁切掉60个像素以裁掉文档边缘的杂色,并生成新的图像数据集;

所述2):调整图像大小指将新的图像数据集的所有图像的高度像素设置为480dpi,同时图像的宽度像素根据相应比例进行调整,从而使图像大小统一化,并生成新的图像数据集;

所述3):合成数据集指将新的图像数据集分别取75%进行垂直翻转和水平翻转的操作,同时选取50%的图像进行旋转的操作,其中旋转角度在区间[‑90°,90°)之间取任意值,接着对所有图像进行压缩增强,指定压缩后的图像质量下限为30JFIF,上限为80JFIF,并选取70%的图像进行随机阴影增强,其中指定阴影可能出现区域为整张图像,阴影数量下限为0,上限为1;然后选取50%的图片进行随机亮度和对比度增强,其中指定对比度调整的幅度范围在0.1到0.34之间,指定图像亮度降低50%;最后选取z张档案扫描图像常见的背景图片与n张处理后的图像进行随机合成,并生成最后的数据集;

所述4):数据集分组指将最后的数据集按6张图片一组,每组抽取1张图片作为验证集,另外5张图片作为训练集,进而将最后的数据集分成训练集和验证集两个部分。

3.根据权利要求2所述的一种基于深度学习的档案扫描图像自动纠偏裁边方法,其特征在于,在步骤S15中,训练得到的模型指将权利要求2所述训练集输入ACMCN模型中进行训练,设定NUM_EPOCHS的值为100,即模型将遍历整个训练集100次,设定BATCH_SIZE的值为

16,即每次模型将训练16个样本,设定NUM_CLASSES的值为2,即表示模型要进行二分类;步骤S15所述训练得到的模型性能需要通过IOU函数和Loss函数来评价,其中IOU用来计算目标检测和语义分割的性能,IOU的取值范围在0到1之间,数值越大表示预测结果越准确,即性能越好,其公式表达如下:其中,AreaA∩B表示A和B之间的交集面积,AreaA∪B表示A和B之间的并集面积,woverlap和hoverlap分别表示A和B之间重叠部分的宽度和高度,wA、hA、wB和hB分别表示A和B的宽度和高度,其中A表示档案扫描图像纠偏裁边的预测效果,B表示档案扫描图像纠偏裁边的实际效果;

Loss函数即损失函数,在训练模型时,ACMCN模型根据输入数据进行预测,然后计算预测结果和真实结果之间的差异,该差异即为损失函数的值;Loss值越小,则模型的预测结果更接近真实结果,即性能越好,其公式表达如下:其中,yi表示第i张档案扫描图像的预测结果的标签,需要纠偏裁边的档案扫描图像标记为1,不需要纠偏裁边的档案扫描图像标记为0,pi表示第i张档案扫描图像预测结果为需要纠偏裁边的档案扫描图像的概率,Li表示第i张档案扫描图像的交叉熵损失函数的值,N为训练集的样本总数;

通过IOU和Loss来衡量模型是否训练完毕,当IOU达到0.5以及Loss低于0.1时,认为目标被正确检测。