利索能及
我要发布
收藏
专利号: 2021105284067
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,包括以下步骤:S1、构建基于可微神经网络搜索技术的多尺度目标检测模型;

S2、对多尺度目标检测模型进行训练;

S3、将原始待处理图像输入到训练好的多尺度目标检测模型中,获得多尺度目标检测结果;

所述步骤S1中的多尺度目标检测模型包括初始卷积单元、多尺度特征提取单元及分类回归单元;

所述初始卷积单元用于对输入数据进行初步的特征提取,同时确保输入多尺度特征提取单元的特征图的尺寸;

所述多尺度特征提取单元用于基于可微神经网络搜索技术自动搜索出尺度不通过的6个特征图;

所述分类回归单元用于对多尺度特征提取单元提取的6个特征图进行目标检测;

所述初始卷积单元包括依次连接的第一3×3卷积层、第二3×3卷积层、第一2×2最大池化层、第三3×3卷积层、第二2×2最大池化层、第四3×3卷积层和第三2×2最大池化层;

其中,所述第一3×3卷积层、第二3×3卷积层、第三3×3卷积层和第四3×3卷积层后均添加有Relu层;

所述多尺度特征提取单元包括6个尺度下依次连接的cell结构;

每个所述cell结构包括5个结点,前4个结点对输入图像进行卷积及池化操作,第5个结点对输入图像进行reduction操作,使输入每个cell结构输出的图像尺寸减半;

对于每个cell结构中的5个结点,相邻两个结点之间对图像进行混合操作,所述混合操作的表达式为:(i,j)

式中,o' 为结点i和结点j之间的混合操作, 为结点i和结点j之间原始操作o的(i,j)权值,o 为结点i和结点j之间的原始操作,O为原始操作的集合;

基于上述混合操作,对每个可能的操作均赋予权重a,再进行softmax操作;

对于每个cell结构,其对特征图进行处理时的操作的集合作为对应的搜索空间;

第一个cell结构的搜索空间f1为:f1={conv5×5,conv3×3,maxpool3×3,averagepool3×3}第二个cell结构的搜索空间f2为:f2={conv5×5,conv3×3,maxpool2×2,averagepool2×2}第三个cell结构的搜索空间f3为:f3={conv3×3,conv1×1,maxpool2×2,averagepool2×2}第四个cell结构的搜索空间f4为:f4={conv3×3,conv1×1,maxpool1×1,averagepool1×1}第五个cell结构的搜索空间f5为:f5={conv3×3,conv1×1,maxpool1×1,averagepool1×1}第六个cell结构的搜索空间f6为:f6={conv1×1,maxpool1×1,averagepool1×1}式中,convK×K为卷积核大小为K的卷积操作,maxpoolK×K为大小为K的最大池化操作,averagepoolK×K为大小为K的均值池化操作。

2.根据权利要求1所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述分类回归单元包括6个Muti‑box层,6个所述Muti‑box层的输入依次对应6个cell结构的输出,每个Muti‑box层均包括逻辑回归网络和分类网络;

第一个Muti‑box层中的逻辑回归网络表示为:

1 1 1

loc=Conv(L)

第二个Muti‑box层中的逻辑回归网络表示为:

2 2 2

loc=Conv(L)

第三个Muti‑box层中的逻辑回归网络表示为:

3 3 3

loc=Conv(L)

第四个Muti‑box层对应的逻辑回归网络表示为:

4 4 4

loc=Conv(L)

第五个Muti‑box层中的逻辑回归网络表示为:

5 5 5

loc=Conv(L)

第六个Muti‑box层中的逻辑回归网络表示为:

6 6 6

loc=Conv(L)

p p

式中,loc 为第p个Muti‑box层对应的逻辑回归网络的输出,L 为第p个cell结构的输

1 2

出,Conv为用16个padding模式的3×3卷积核操作进行卷积操作,Conv为用24个padding模3

式的3×3卷积核操作进行卷积操作,Conv为用24个padding模式的3×3卷积核操作进行卷

4 5

积操作,Conv 为用24个padding模式的3×3卷积核操作进行卷积操作,Conv 为用16个6

padding模式的3×3卷积核操作进行卷积操作,Conv为用16个padding模式的3×3卷积核操作进行卷积操作,其中,p=1,2,...,6;

第一Muti‑box层中的分类网络表示为:

1 1 1

conf=Conv_conf(L)第二Muti‑box层中的分类网络表示为:

2 2 2

conf=Conv_conf(L)第三Muti‑box层中的分类网络表示为:

3 3 3

conf=Conv_conf(L)第四Muti‑box层中的分类网络表示为:

4 4 4

conf=Conv_conf(L)第五Muti‑box层中的分类网络表示为:

5 5 5

conf=Conv_conf(L)第六Muti‑box层中的分类网络表示为:

6 6 6

conf=Conv_conf(L)p 1

式中,conf为第p个Muti‑box层对应的分类网络的输出,Conv_conf 为用84个padding2

模式的3×3卷积核操作进行卷积操作,Conv_conf为用126个padding模式的3×3卷积核操3

作进行卷积操作,Conv_conf 为用126个padding模式的3×3卷积核操作进行卷积操作,

4 5

Conv_conf为用126个padding模式的3×3卷积核操作进行卷积操作,Conv_conf为用84个6

padding模式的3×3卷积核操作进行卷积操作,Conv_conf为用84个padding模式的3×3卷积核操作进行卷积操作。

3.根据权利要求1所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S2中,对多尺度目标检测模型进行训练的方法具体为:S21、构建训练样本集合Xtrain={x1,x2,...,xn};

式中,xi为样本,下标1≤i≤n,n为样本总个数;

S22、将训练样本集合中的样本xi依次输入到多尺度目标检测模型中,得到6个尺度的特征图;

S23、进行尺度及比例设置,在6个尺度的特征图上生成先验框;

S24、基于生成的先验框,进行正样本及负样本的选择;

S25、基于正样本和负样本的选择结果,计算多尺度目标检测模型的损失;

S26、基于损失计算结果,进行多尺度目标检测模型的参数优化,得到训练好的多尺度目标检测模型。

4.根据权利要求3所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S23中,进行尺度设置的公式为:其中,Sk为第k个特征图的先验框尺度相对于图像的比例,k∈[2,m],m为特征图的数量,Smax为最大尺度,取0.9,Smax为最小尺度,取0.2;对于第一个特征图,其尺度单独设置为0.1;

所述步骤S23中,进行比例设置时,每个尺度下的特征图中先验框的长宽比依次设置为

1,2,3,1/2,1/3,1',其中,1'为长宽比为1但是尺度大小为 的先验框;

所述步骤S24中,进行正样本和负样本选择的方法具体为:A1、在每个特征图中,计算每个先验框和对应真实框的IOU值,计算公式为:IOU=(A∩B)/(A∪B)

式中,A和B分别为先验框和真实框的面积;

A2、将IOU值大于0.5对应的样本作为正样本,将IOU值小于0.5对应的样本作为负样本,且正样本和负样本的比例为1:3;

所述步骤S25中,多尺度目标检测模型的损失的计算公式为:式中,N为先验框对应的样本为正样本的样本数量,Lconf(x,c)为类别损失,Lloc(x,l,g)为位置损失,x为是否匹配的参数值,x={0,1},c为类别置信度预测值,a为经验值,l为先验框的位置预测值,g为真实框的位置参数;

所述位置损失Lloc(x,l,g)采用SmoothL1损失计算,其表达式为:式中,上标cx,cy为框的中心点的横、纵坐标,上标w,h为框的宽和高, 为i个default‑box与第j个真实框关于类别k是否匹配的参数, d为default‑box的位置参数;

所述类别损失函数Lconf(x,c)的计算公式为:式中, 为第i个default‑box与第j个真实框关于类别p是否匹配的参数,为第p个类别的预测置信度;

所述步骤S26中,对结构参数a和网络参数w进行优化的方法具体为:B1、将结构参数a视为已经训练好的参数,固定不变,在训练样本集上利用梯度下降法优化网络参数w;

B2、将网络参数w视为已经训练好的参数,固定不变,在验证样本集上利用梯度下降法优化结构参数a;

B3、重复步骤B1~B2,对网络参数w和结构参数a进行优化,进而得到训练好的多尺度目标检测模型。

5.根据权利要求4所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S3中,利用多尺度目标检测模型对原始待处理图像进行处理,获得多尺度目标检测结果的方法具体为:S31、通过初始卷积单元对原始待处理图像进行初始卷积处理,获得图像F;

S32、通过多尺度特征提取单元对图像F进行处理,获得6个尺度的特征图;

S33、对每个特征图中的每个像素点生成大小比例不同的先验框;

S34、基于生成的先验框,进行正样本和负样本匹配;

S35、基于正样本和负样本的匹配结果,计算多尺度目标检测的损失,并通过梯度下降法更新多尺度目标检测模型的参数a和w;

S36、基于当前多尺度目标检测模型的参数,选取每个混合操作中参数a最大的操作,并确定其对应的cell结构;

S37、对确定的cell结构输出的特征图进行非极大值抑制操作,获得对应尺度下特征图中的目标检测结果。

6.根据权利要求5所述的基于可微神经网络搜索技术的多尺度目标检测方法,其特征在于,所述步骤S37具体为:S37‑1、选取当前特征图中置信度前200的所有先验框,构建集合H;

同时,构造用于存放最优框的集合M,并将其初始化为空集;

S37‑2、将集合H中的先验框按照置信度进行排序,选出分数最高的先验框m,并将其移动到集合M中;

S37‑3、遍历集合H中的先验框,计算分数最高的先验框m的IOU值,并将高于设定IOU阈值的先验框从集合H中删除;

S37‑4、重复步骤S37‑2~S37‑3,直到集合H为空,输出集合M中的先验框,作为多尺度目标检测结果。