1.一种基于网页验证码的图像标注方法,其特征在于:该方法包括:
1)获取待标注的图像集R中每一图像中目标数,再将待标注的图像集R划分为数据集R1和数据集R2,标注出数据集R1中各图像上的目标,该标注方法为通过左上角坐标和右下角坐标构建矩形框标注图像上的目标,每一个矩形框标注一个目标;数据集R1中的每一张图像对应形成一个矩形框数组其中, 分别为第l个目标的左上角横坐标和左上角纵坐标;
k为数据集R1中的图像序号;
分别为第l个目标的右下角横坐标和右下角纵坐标;
nk为数据集R1中第k张图像上目标总数;
2)从数据集R1和数据集R2中分别随机抽取一张图像作为网页验证码,对用户进行人机验证,用户通过矩形框分别标注出抽取的两张图像上的目标,之后对应返回两个多维数组以及C2=[Xli,Yli,Xri,Yri]i∈[1,m];
其中, 分别为从数据集R1抽取图像第l个目标的左上角横坐标和左上角纵坐标;
分别为从数据集R1抽取图像第l个目标的右下角横坐标和右下角纵坐标;
Xli,Yli分别为从数据集R2抽取图像第i个目标的左上角横坐标和左上角纵坐标;
Xri,Yri分别为从数据集R2抽取图像第i个目标的右下角横坐标和右下角纵坐标;
3)分别计算数组 所包含的每一个矩形框与相同图像在步骤
1)中形成的矩形框数组 中对应矩形框的交并比IOU,若IOU>0.8的数量为nk时,该用户通过人机验证,同时将该用户返回的数组C2=[Xli,Yli,Xri,Yri],i∈[1,m]记录至数据库中,并记步骤2)中从数据集R2抽取的图像的被标注次数加1;
4)当数据集R2中任意一张图像的被标注次数大于阈值T1时,对其进行如下聚类处理:设该被标注次数大于阈值T1的图像对应的矩形框数组B=[xli,yli,xri,yri],i的取值范围是1~m;其中,xli,yli分别为该图像第个i目标的左上角横坐标和左上角纵坐标;xri,yri分别为该图像第i个目标的右下角横坐标和右下角纵坐标;i为图像中目标序号;
再计算各个矩形框的中心坐标 i的取值范围是1~m;
5)基于该图像目标数量j,则聚类数为j,随机生成j个聚类质心(μ1,μ2,…,μj),分别计算各个矩形框中心坐标bi到聚类质心μ1,μ2,…,μj的距离 Pj为中心坐标bi与j个类中距离最小的那个类,即bi∈Pj,则得到各个类所含有的矩形框中心坐标;
6)重新计算各个类的聚类质心μ1,μ2,…,μj,即计算Pj各个类中矩形框中心坐标的平均值返回步骤5),直至聚类质心坐标变化率小于阈值T2时,进入步骤7);
7)聚类结束,得到Pj各个组别中所包含的矩形框;
8)分别根据每一组别中左上角和右下角坐标的分布密度,设置该组别对应的左上角和右下角坐标的权重系数,并根据权重系数ki且∑ki=1,求出该组别对应左上角和右下角坐标,作为该组别对应最终标注坐标(x,y)=ki(xi,yi);
9)通过上述方法,得到各个组别[P1,P2,…,Pn]标注框的左上角坐标和右下角坐标[XLn,YLn,XRn,YRn],同时将该图像加入到数据集R1中用于人机验证。
2.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:所述数据集R1和数据集R2中图像数目比例为1:9。
3.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:步骤1)中所述标注采用人工标注。
4.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:步骤3)所述数据集R2抽取的图像的被标注次数初值取0。
5.根据权利要求1‑4任一所述的基于网页验证码的图像标注方法,其特征在于:步骤4)中所述阈值T1取[100,150]中整数。
6.根据权利要求1‑4任一所述的基于网页验证码的图像标注方法,其特征在于:步骤6)中所述阈值T2的取值范围是0~20。