买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度残差网络特征的视觉目标跟踪方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度残差网络特征的视觉目标跟踪方法

￥43800

专利号： 2019100956215

申请人：长安大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-08-29

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于，该方法包括以下步骤：

步骤一、选取深度残差网络的特征层并计算每个特征层对应的权重：在经过标注的公开数据集中，利用深度残差网络ResNet‑N中的每一层分别对经过标注的公开数据集中视频进行特征提取，计算跟踪重叠率，选取跟踪重叠率位于前三的层构造第一训练样本，训练卷积神经网络CNN1，卷积神经网络CNN1由输入层I1、卷积层C1、池化层P1、卷积层C2、池化层P2、卷积层C3、池化层P3、全连接层F和输出层O1构成，待跟踪图像序列经过卷积神经网络CNN1后，输出值即为特征层L1、特征层L2和特征层L3；

利用经过标注的公开数据集、特征层L1、特征层L2和特征层L3构造第二训练样本，训练全连接网络FC1，全连接网络FC1由输入层I1'、全连接层F1、全连接层F2、全连接层F3和输出层O1'构成，待跟踪图像序列、特征层L1、特征层L2和特征层L3经过全连接网络FC1后，输出值即为特征层L1对应的权重γ1、特征层L2对应的权重γ2和特征层L3对应的权重γ3；

步骤二、第一帧实际输入图像的特征提取：利用人工框选目标的方式对第一帧实际输入图像的目标进行框选，将实际拍摄且经过框选后的第一帧实际输入图像利用深度残差网络ResNet‑N进行特征提取，提取出深度残差网络ResNet‑N中特征层L1输出的特征x11、深度残差网络ResNet‑N中特征层L2输出的特征x12和深度残差网络ResNet‑N中特征层L3输出的特征x13；

步骤三、构建第一帧实际输入图像的特征的响应和初始位置滤波器：通过高斯函数构建特征x11的响应值y11，通过高斯函数构建特征x12的响应值y12，通过高斯函数构建特征x13的响应值y13；

根据公式构建初始位置滤波器其中，i为特征的对应编号且i＝1,2,

3，为y1i的傅里叶变换，z1i为第二帧实际输入图像对应特征x1i的估计特征且z1i＝x1i，‑1

||·||表示2‑范数，F 为傅里叶逆变换，为x1i的共轭，为的傅里叶变换，为z1i的傅里叶变换，⊙为点乘运算，σ和λ为常数；

步骤四、第一帧实际输入图像的尺度采样及fHOG特征提取：依据经过框选后的第一帧实际输入图像的目标中心位置，对第一帧实际输入图像的框选目标图像进行尺度采样，得到第一帧实际输入图像的M种不同尺度的目标样本，并将第一帧实际输入图像的M种不同尺度的目标样本的大小变换为大小统一的目标样本，对每个大小统一的目标样本进行31维fHOG特征提取，并把每个大小统一的目标样本的所有fHOG特征串联成一个特征向量，该特征向量的长度为Lf，其中，M为不小于3的奇数；

步骤五、构建初始尺度滤波器：根据公式构建初始尺度滤波器其中，l为特征向量的维度编号且l＝1,2,...,Lf，G1为通过高斯函数构建的第一帧实际l

输入图像的响应值的傅里叶变换，为G1的共轭，F1 为第一帧实际输入图像的目标样本的第l维特征的傅里叶变换，λ'为常数；

步骤六、第二帧实际输入图像的特征提取：将实际拍摄的第二帧实际输入图像利用深度残差网络ResNet‑N进行特征提取，提取出深度残差网络ResNet‑N中特征层L1输出的特征x21、深度残差网络ResNet‑N中特征层L2输出的特征x22和深度残差网络ResNet‑N中特征层L3输出的特征x23；

步骤七、位置滤波：利用初始位置滤波器对深度残差网络ResNet‑N中特征层L1输出的特征x21、深度残差网络ResNet‑N中特征层L2输出的特征x22和深度残差网络ResNet‑N中特征层L3输出的特征x23进行位置滤波，获取特征x2i的位置滤波响应图，特征x2i的位置滤波响应图的大小为s×t，s为位置滤波响应图的行向像素数，t为位置滤波响应图的列向像素数；

步骤八、位置滤波响应图的加权及目标定位：根据公式对三个特征的位置滤波响应图进行加权得到加权后的位置滤波响应图并计算目标的中心位置cuv，获取以目标的中心位置cuv为中心的目标图像，实现目标定位，其中，c为像素点的响应值，为第i个特征的位置滤波响应图中第p行第q列像素点的响应值，p＝1,2,...,s，q＝1,2,...,t；

步骤九、目标图像的尺度采样及fHOG特征提取：依据目标的中心位置cuv，对目标图像进行尺度采样，得到目标图像的M种不同尺度的目标样本，并将目标图像的M种不同尺度的目标样本的大小变换为大小统一的目标图像样本，对每个大小统一的目标图像样本进行31维fHOG特征提取，并把每个大小统一的目标图像样本的所有fHOG特征串联成一个目标特征向量，该目标特征向量的长度为Lf；

步骤十、目标特征向量的尺度滤波及尺度估计：利用初始尺度滤波器分别对M个目标特征向量进行尺度滤波，响应值最大的点即对应当前实际输入图像中目标的精确尺度，实现当前实际输入图像的尺度估计；

步骤十一、初始位置滤波器和初始尺度滤波器的更新：对步骤七中的初始位置滤波器进行更新，并将更新后的位置滤波器带入步骤七，同时对步骤十中的初始尺度滤波器进行更新，并将更新后的尺度滤波器带入步骤十；

步骤十一中令其中，为的分子部分，B1为的分母中除去常数λ'的部分；

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分子部分 G2为通过高斯函数构建的第二帧实际输入图像的目标样本的傅里叶变换，为G2的共轭，为第二帧实际输入图像的目标样本的第l维特征的傅里叶变换；

根据公式构建初始尺度滤波器的更新参考尺度滤波器的分母中除去常数λ'的部分B20；

根据公式获取初始尺度滤波器的更新参考尺度滤波器根据公式得到更新后的尺度滤波器其中，η'为尺度滤波器的学习率；

步骤十二、输入下一帧实际输入图像，将下一帧实际输入图像视为第二帧实际输入图像后循环步骤六。

2.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤十一中将(1‑η)x1i+ηx2i的值赋予x2i后，得到更新的x2i，将更新后的x2i带入公式得到初始位置滤波器的更新参考位置滤波器然后根据算式得到更新后的位置滤波器，其中，η为位置滤波器的学习率，y2i为通过高斯函数构建特征x2i的响应值，为y2i的傅里叶变换，z2i为第三帧实际输入图像对应特征x2i的估计特征且z2i＝x2i，

3.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中卷积层C1、卷积层C2和卷积层C3均采用5×5的卷积核，池化层P1和池化层P2均采用4×4的池化窗口，池化层P3采用2×2的池化窗口；全连接层F1中的节点个数为1024，全连接层F2中的节点个数为256，全连接层F3中的节点个数为64。

4.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：步骤一中跟踪重叠率用overlap表示且其中，S1为跟踪计算得到的目标框面积，S2为手工标定的准确目标框面积。

5.按照权利要求2所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述位置滤波器的学习率η的取值范围为0＜η＜0.2。

6.按照权利要求1所述的一种基于深度残差网络特征的视觉目标跟踪方法，其特征在于：所述尺度滤波器的学习率η'的取值范围为0＜η'＜0.2。