利索能及
我要发布
收藏
专利号: 2022104341885
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种快速准确的图片检测与语义分类方法,其特征是,包括:读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;

根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;

读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;

基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;

采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;

通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;

根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;

将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;

同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;

将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。

2.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,若目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的超过指定比重的特征均不位于该预测矩形框中或全部特征都不在该预测矩形框中,则划分为无效预测矩形框。

3.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述预测矩形框通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置的方式构建得到。

4.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述VGG19神经网络模型:通过Conv2d模块进行卷积,在由多个输入平面组成的输入信号上应用二维卷积,表达式为:其中,*代表2维互相关运算符,out表示输出值,input表示输入值, 表示输出通道数,bias表示偏差值,weight表示权重,Ni表示第i张图片最小批量处理的图片数量,Cm表示第m张图片的通道数,k表示卷积核大小,必须为正整数;

通过MaxPool2d模块进行最大池化,在由几个输入平面组成的输入信号上应用一个2D max池,表达式为:input(Ni,Ci,stride[0]×h+m,stride[1]×w+n)Ni表示第i张图片最小批量处理的图片数量,Ci表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度,如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;

通过Flatten模块进行展成,将连续的灰度范围变平为张量;

通过Linear模块进行线性化处理,对输入数据应用线性转换,表达式为:T

Y=XA+B

Y表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。

5.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述第一损失函数为CrossEntropyLoss,表达式为:T

R(x,y)=L={R1,.Rn..,RN}

{yn≠忽略索引值}

式中,x为输入值,y是目标值,L表示这个矩阵集合的整体,C是类的数量,Rn表示数量为n时的矩阵,N是最小批量处理的图片数量,T表示对矩阵进行转置,yn表示第n个目标值,wyn表示第n个目标值的权重,xn,yn表示数量为n,第n个目标值的权重时的输入值;xn,c表示数量为n,图片种类为C时的输入值;

当给定了忽略索引的值,未减少的损失值描述为:

上式取平均值,下式求和;

每一类的概率:适用于每个小批产品需要一个类别以上的标签,未减少的损失描述为:T

R(x,y)=L={R1,.Rn..,RN}

式中,x为输入值,y是目标值,C是类的数量,wc表示类的数量为C时的权重,N是最少尺寸的批量处理的图片,yn,c表示类的数量为C时的目标值;

所述第二损失函数为MSELoss,表达式为:

T

R(x,y)=L={R1,.Rn..,RN}

2

Rn=(xn‑yn)

其中,xn表示数量为n时的输入值,yn表示数量为n时的输出值,L表示这个矩阵集合的整体。

6.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述softmax函数通过将多维的特征向量通过对纵向或横向的对比,判断出两个图片的相似程度,以进行回归归类。

7.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述图片文本信息包括像素值的大小、图片的格式和整张图片内容所对应的坐标值。

8.一种快速准确的图片检测与语义分类系统,其特征是,包括:图片获取模块:用于读取图片以及图片文本信息;

图片处理模块:用于,基于图片以及图片数据集信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;

图片分析模块:用于采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;

优化模块:用于将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;

训练模块:用于同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;

结果输出模块:用于将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。

9.一种快速准确的图片检测与语义分类装置,其特征是,包括处理器及存储介质;

所述存储介质用于存储指令;

所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。

10.计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。