1.一种建立噪声环境下对目标精确跟踪网络的方法,其特征在于,包括以下步骤:首先设置对抗性噪声训练的训练次数,噪声发生器产生噪声的种类和大小,跟踪器损失函数的平衡系数;将一对图片对送入噪声发生器,噪声发生器根据设置的相关参数对图片对加入噪声,处理后的图片对送入骨干网络进行特征提取;将特征提取后得到的响应图进行分类和回归,从而得到当前帧的跟踪结果,而后迭代运行这一流程至遍历测试数据集的全部视频序列的全部视频帧;将每一帧的跟踪结果记录保存,并定量分析跟踪精确度和跟踪成功率。
2.根据权利要求1所述的一种建立噪声环境下对目标精确跟踪网络的方法,其特征在于,包括以下步骤:步骤1:获取目标跟踪视频,将干净的视频送入噪声发生器,噪声发生器可以对干净的视频图像加入不同种类和不同程度的噪声,加噪完毕后,发生器会将噪声图片输出,然后读取下一帧图像进行加噪处理;
步骤2:对每个视频进行取样,使它们包含干净数据,剩下的数据都经过噪声发生器进行加噪声处理;
步骤3:假设视频的第x帧图像为x,并且该图像经过噪声发生器的处理,δ是噪声的标准差,x+δ表示将噪声的标准差加入第x帧干净图像后得到的噪声图像;
步骤4:输入模板帧的边界框,靠此信息检测后面候选区域中的目标;将模板帧和经过处理的视频的待检测帧送入同一个骨干网络,为了使经过噪声发生器处理后的视频能够最大限度地混淆跟踪器,引入损失函数BCE loss,其中BCE loss是用来衡量加噪声对跟踪器的影响程度,定义为lce:lce=‑ylg(p)+(1‑y)lg(1‑p)
其中;y表示待检测帧经骨干网络提取后的分类得分图,p表示地面真实标签;
步骤5:设模板帧的bounding box结果为(xc,yc,wr,hr),其中xc,yc分别为跟踪图像的中心点的横纵坐标,wr,hr分别为跟踪图像的宽与高;
步骤6:将待检测视频的第I帧输入到跟踪器中,得到N个建议候选框,计算当前帧N个建c
议候选框与模板帧结果(xc,yc,wr,hr)的交并比结果IOU,那么真实分类置信度标签为P:步骤7:对于当前待检测帧I的第n个(0<n≤N)跟踪建议框 其中 分别
为跟踪结果中心点的横纵坐标, 分别为跟踪结果的宽与高,其与上一帧跟踪结果(xc,yc,wr,hr)的真实回归偏移量为 即步骤8:对于当前待检测帧I,得到的跟踪器第n个(0<n≤N)跟踪建议框的损失函数为L(I,n,θ),即;
其中,Lc表示二进制分类损失函数,采用交叉熵损失函数进行计算;Lr表示边框回归损失函数,采用smoothL1损失函数进行计算, 表示当前待检测帧I中的第n个建议候选框的预测分类置信度分数,代表跟踪器预测当前待检测帧I中的第n个建议候选框中包含跟踪目标的概率; 输入帧I中的第n个建议候选框的预测回归偏移量,代表跟踪器预测输入帧I中的第n个建议候选框的坐标和目标坐标之间的偏移大小; 表示当前帧I中的第n个建议候选框的真实分类置信度分数,代表当前待检测帧I中的第n个建议候选框中包含跟踪目标的真实概率; 表示当前帧I中的第n个建议候选框的真实回归偏移量,代表输入帧I中的第n个建议候选框的坐标和目标坐标之间真实的偏移大小,λ是一个固定的权重参数,θ表示跟踪器所采用的网络参数;
步骤9:对第I帧图像,根据候选框的预测分类置信度分数的最高值 对
应的第n个跟踪建议框 加上对应的预测回归偏移量 即为跟踪结果(xpro,ypro,wpro,hpro),其中预测回归偏移量 因此,跟踪结果为:步骤10:将视频的下一帧I+1作为待检测帧重复步骤4‑步骤9的操作,在最大化BCE loss值的条件下使最后的跟踪器损失值L(I,n,θ)最小,通过训练不断地让跟踪器能够在保证对干净视频跟踪效果的同时应对各种噪声环境下的跟踪;
步骤11:为了防止噪声发生器卡在局部最小值内,定期停止对抗性噪声训练(ANT),即步骤1到步骤10的操作,并从头开始训练一个新的噪声发生器;噪声发生器根据跟踪器的当前状态进行训练,以找到当前的最优状态;将噪声发生器看做内环,跟踪器当作外环,新的噪声发生器取代对抗性噪声训练中以前的噪声发生器代表内环的更新,内环更新完成后,外环的跟踪器会随之进行更新,二者交替进行直到网络收敛。
3.根据权利要求2所述的一种建立噪声环境下对目标精确跟踪网络的方法,其特征在于,步骤2中包含50%的干净数据。
4.根据权利要求2所述的一种建立噪声环境下对目标精确跟踪网络的方法,其特征在于,步骤2中δ的取值为0、0.08、0.12、0.18、0..26、0.38、0.5、0.6或0.7。
5.根据权利要求2所述的一种建立噪声环境下对目标精确跟踪网络的方法,其特征在于,所述x+δ的范围为[0,1]。