利索能及
我要发布
收藏
专利号: 2019102000920
申请人: 中山大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于判别性区域挖掘的目标检测方法,其特征在于,包括以下步骤:S1:通过特征提取网络进行特征提取,获取特征流s1、s2;

S11:将一张图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;

S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失 和回归损失S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;

S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;

对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2;

S22:判别性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:(x,y)=(xn,yn)+λ(Δx,Δy);                (1)其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W;yn=1,

2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为

0.75;

S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判别性区域表示为(x,y),则其判别性区域的特征表示为:其中:Fdiscri表示判别性特征图; 表示特征图Fdiscri在空间位置(xn,yn)上的特征,(x,y)表示以(xn,yn)为中心的候选目标的判别性区域特征表达;φ(Fcomp) 表示互补特征图Fcomp在判别性区域(x,y)的变换函数,这里取恒等换;其中:表示(x,y)的四个邻近整数空间位置,其中 表示向下取整, 表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:G(u,v,x,y)=g(u,x)·g(v,y);            (3)其中,g(a,b)=1‑|a‑b|;

在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;

S24:LDRM模块内的分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;

S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F′basic,输出空间分别率小的特征作为互补特征图F′comp,构建CDRM模块的输入特征图对;

S32:判别性区域定位:设输入的基础特征图F′basic的大小为W′×H′×C′,其中W′、H′、C′分别表示基础特征图F′basic的宽、高和通道数;基础特征图F′basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M′;对于中心位置为(x′n,y′n)的候选目标区域,其判别性区域表示为:(x′,y′)=(x′n,y′n)+λ′(Δx′,Δy′);                (4)其中,(x′n,y′n)遍历了基础特征图F′basic中所有的空间位置,即:x′n=1,2,...,W′;y′n=1,2,...,H′;(Δx′,Δy′)表示从候选目标区域到判别性区域的位置偏移量;其中, 其表示特征图M′中的空间位置为(x′n,y′n)的数值;λ′为缩放权重,取值为1;

S33:判别性特征学习:对于一个中心位置为(x′n,y′n)的候选目标,设其判别性区域表示为(x′,y′),则其判别性区域的特征表示为:其中:F′discri表示判别性特征图; 表示特征图F′discri在空间位置(x′n,y′n)上的(x′,y′)特征,表示以(x′n,y′n)为中心的候选目标的判别性区域特征表达;φ′(F′comp) 表示互补特征图F′comp在判别性区域表示(x′,y′)中的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:表示(x′,y′)的四个邻近整数空间位置,其中 表示向下取整, 表示向上取整;函数G′是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:G′(u′,v′,x′,y′)=g′(u′,x′)·g′(v′,y′);            (6)其中,g′(a′,b′)=1‑|a′‑b′|;

在CDRM模块中,基础特征图F′basic经过一个3×3的卷积层后与特征图F′discri进行逐元素相加操作,从而得到CDRM模块的输出;

S34:CDRM模块内的分类:将特征图F′discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果;

S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;

S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失 和回归损失