1.一种基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法包括:采用VGG-16网络提取目标的深度特征,将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络,在相关滤波网络的基础上构建时间网络和空间网络,时间网络和空间网络分别用于捕捉目标的时间信息和空间信息,采用跳跃式连接的方式将相关滤波网络、时间网络以及空间网络相连得到深度网络;
训练深度网络,直至深度网络所包含的相关滤波网络、时间网络以及空间网络这三个模型全部收敛;
从当前帧的图片中提取第一搜索块,从前一帧的图片中提取第二搜索块,采用VGG-16网络提取第一搜索块和第二搜索块的特征,并且将提取的特征导入深度网络的三个模型中以生成响应映射,将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置。
2.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述采用VGG-16网络提取目标的深度特征是指,提取了VGG-16网络的第三、四、五层上的特征作为目标的深度特征。
3.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将相关滤波算法表示成一层卷积神经网络,以得到相关滤波网络包括以下步骤:获取卷积神经网络的代价函数,获取的代价函数为:
其中,M是样本的数量,X(i)表示第i个输入样本,Y(i)表示第i个样本所对应的高斯标签,L(·)代表第i个样本的损失函数,F(·)是第i个样本的网络输出即预测值,P(·)是正则化函数,Θ代表卷积滤波器,λ是正则化参数;
令M=1,采用l2损失函数,将l2范数作为正则化函数,代价函数改写为如下形式:J(Θ)=‖F(X;Θ)-Y‖2+λ‖Θ‖2
其中,X表示输入样本,Y表示对应的高斯函数标签,当输入样本Y通过一个卷积层时,其网络输出F(X;Θ)=Θ*X,*代表卷积。
4.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述深度网络为:F(Xt)=Fspatial(Xt)+FCF(Xt)+Ftemporal(Xt-1)其中,Xt代表当前帧的特征映射图,Xt-1代表前一帧的特征映射图,Fspatial(·)代表空间网络的输出,FCF(·)代表相关滤波网络的输出,Ftemporal(·)表示时间网络的输出。
5.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述训练深度网络包括以下步骤:选择一个带有目标位置的输入帧,提取以目标位置为中心的训练块,将其放入网络框架中用于特征提取和响应映射,将获取的特征映射分别送入由相关滤波网络、时间网络以及空间网络连接成的深度网络中,同时训练相关滤波网络、时间网络以及空间网络这三个模型,直至三个模型全部收敛。
6.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置包括以下步骤:在视觉跟踪问题中,将弱跟踪器视为专家,设第l个专家的响应映射为:其中k=3,4,5分别代表VGG-16网络的第三、四、五层;
则第l个专家的目标位置为:
最终预测的目标位置是多个专家加权的结果,即:
其中, 是第l个专家的权重,L为弱跟踪器总数量。
7.根据权利要求6所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述将每个模型视为弱跟踪器,利用自适应权重的集成学习算法引擎融合所有弱跟踪器得到最终的目标位置还包括以下步骤:采用下述公式以计算下一帧的权重分布:
其中, 表示 σt代表比例因子, 代表求解累积的后悔值, 代表历史后悔值,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值, 代表第l个专家的稳定性;
采用下述公式计算
其中, 代表每个专家决策损失, 代表决策分析中的后悔值,表示为所有专家决策损失的平均值减去每个专家的决策损失, 代表决策损失的均值, 代表决策损失的标准差。
8.根据权利要求1所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述目标跟踪方法还包括:采用短时更新与长时更新相结合的更新策略对深度网络进行更新。
9.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述短时更新包括以下步骤:计算每个弱跟踪器的稳定性
采用下述公式判断每个弱跟踪器的性能值:
其中,ζ为比例因子控制指数函数的形状,H代表当前帧后悔值的最大权重,用以避免没有历史后悔值, 代表第l个专家的稳定性,L为弱跟踪器总数量;
判断每个弱跟踪器的性能值是否小于设定阈值D,若其中任意一个弱跟踪器的性能值小于设定阈值D,采用当前帧的搜索块和预测值组成训练对,输入到模型中进行在线更新。
10.根据权利要求8所述的基于时间和空间网络的深度集成目标跟踪方法,其特征在于,所述长时更新是指,将在线检测期间持续生成的搜索块和预测的真值响应图作为训练数据,每S帧对深度网络的三个模型均进行一次更新。