利索能及
我要发布
收藏
专利号: 2023108977432
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种孪生网络单目标跟踪方法,其特征在于,包括以下步骤:S1、构建基于注意力机制和分支对齐的孪生网络,所述网络包括特征提取模块,特征匹配模块,分类和回归模块;所述特征匹配模块包括深度互相关层和位置注意力网络;所述分类和回归模块包括分类和回归子网络、分类分支、定位分支、回归分支;

所述特征提取模块由两个分支组成:模板分支和搜索分支;所述模板分支以给定视频第一帧中的目标区域作为输入t,所述搜索分支以给定视频当前帧中前一帧预测的目标所在位置区域作为输入x;采用孪生ResNet‑50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图;

S2、将模板特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的模板特征图,将搜索区域特征图处理为用于全局特征相似度匹配和局部特征相似度匹配的搜索区域特征图;

S3、将用于全局特征相似度匹配的模板特征图和用于全局特征相似度匹配的搜索区域特征图,输送到所述深度互相关层,得到全局特征的相似度响应图;

将用于局部特征相似度匹配的模板特征图和用于局部特征相似度匹配的搜索区域特征图,输送到所述位置注意力网络中,得到局部特征的相似度响应图;

S4、将得到的全局特征和局部特征的相似度响应图进行加权融合,得到融合后的相似度信息的响应图;

S5、将融合后的相似度响应图进行解码,并输送到分类和回归子网络中进行前背景的分类、边界框的预测和定位精度的预测,得到分类得分图、回归信息响应图和定位得分图;

S6、根据分类得分图、回归信息响应图和定位得分图,得到跟踪分数,根据跟踪分数最大位置选取预测的边界框,得到目标的跟踪结果;

步骤S2具体为:

将孪生ResNet‑50主干网络最后三个特征提取阶段提取的模板分支和搜索分支的特征图分别进行聚合,并对聚合后的模板分支的特征图进行特征细化,得到用于全局特征相似度匹配模板特征图和搜索区域特征图:其中, 表示特征拼接, , , 为模板分支ResNet‑50网络最后三个特征提取阶段输出特征图, , , 为搜索分支ResNet‑50网络最后三个特征提取阶段输出特征图,对 进行特征细化后得到 , 和 分别为用于全局特征相似度匹配模板特征图和搜索区域特征图;

将孪生ResNet‑50主干网络最后三个特征提取阶段中的某个阶段提取的模板分支和搜索分支的特征图 和 进行特征细化后,作为用于局部特征相似度匹配模板特征图和搜索区域特征图 和 ;

所述特征细化具体为:

在孪生ResNet‑50主干网络相应分支的输入图像中标记边界框 ,通过将 投影到该分支待细化特征图上,构成计算机模拟人视觉的显著性区域 ,从 中选取像素作为特征,区域 内的特征保持不变,将 区域外的其它特征视为背景特征,并将其赋值为0。

2.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S1中,采用孪生ResNet‑50主干网络对模板分支的输入和搜索分支的输入分别进行特征提取,得到模板特征图和搜索区域特征图具体为:将模板分支的输入和搜索分支的输入分别依次通过孪生ResNet‑50主干网络四个特征提取阶段提取特征,分别得到模板分支和搜索分支的四个阶段的特征图,作为模板特征图和搜索区域特征图。

3.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S3中,将用于全局特征相似度匹配的模板特征图和用于全局特征相似度匹配的搜索区域特征图,输送到所述深度互相关层,得到全局特征的相似度响应图公式为:其中 表示深度互相关运算,是以 为卷积核,在 上执行逐通道间的全局互相关操作, 和 分别表示用于全局特征相似度匹配的模板特征图和搜索区域特征图, 表示初步得到的全局相似度响应图,对 进行降维操作,得到全局相似度响应图 。

4.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S3中,将用于局部特征相似度匹配的模板特征图和用于局部特征相似度匹配的搜索区域特征图,输送到所述位置注意力网络中,得到局部特征的相似度响应图具体为:将得到的用于局部特征相似度匹配的模板特征图和搜索区域特征图输入到1×1的卷积层中,设置1×1的卷积层输入通道数为2输出通道为4,生成四个新的特征图 ,, 和 ,特征图的大小 ,,其中, 是通道数为c、图像高度为 、图像宽度为 的特

征图, 是通道数为c、图像高度为 、图像宽度为 的特征图;

将 和 的维度调整为: , ,

其中 , ;

计算特征图 与 之间的相似度分数 :

其中 为特征图 第 个位置与特征图 第 个位置的相似度, 表示矩阵乘法, 表示特征图 转置的第 个位置, 表示特征图 第 个位置;

使用softmax函数来归一化 :

通过下式计算 位置 的注意力:

将 位置 的注意力与 第 个位置进行拼接操作,获得模板和搜索区域局部特征图位置j的相似度信息:

其中 表示特征拼接,ReLU表示ReLU函数, 表示中心裁剪, 表示孪生ResNet‑50主干网络两个分支最后三个阶段中某个阶段的输出经过位置注意力网络得到的局部特征的相似度响应图的第j个位置,计算出 的每个位置得到 , 表示孪生ResNet‑50主干网络最后三个阶段中某个阶段的输出经过位置注意力网络得到的局部特征的相似度响应图,将最后三个阶段的局部相似度特征图进行拼接,同时进行降维操作,得到最终的多尺度的局部特征相似度响应图 。

5.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,步骤S5中,对于分类得分图、回归信息响应图上的每个位置 ,将其映射到输入搜索区域图像 上,映射公式为:其中 、 为输入搜索图像的宽和高, 、 分别表示相似度响应图的宽和高,为主干网络的总步幅;

将分类特征图 上特征点 映射回输入搜索图像上对应的位置 ,选择椭圆 内的所有像素点为正样本,而其余像素点则为负样本,椭圆 的定义如下:其中 为目标真实边界框的中心坐标, , 分别为真实边界框的宽和高;

对正负样本进行再划分,提高前背景分类的准确率,具体分类正负标签定义如下:将回归信息响应图上的像素点 映射到搜索分支的输入图像所对应的像素点,边界框回归标签定义如下:其中 分别代表当前像素 与真实目标框左、上、右、下边界的距离,、 分别表示真实目标框的左上角和右下角坐标,其中真实目标框是人工标注的目标框。

6.根据权利要求1所述的一种孪生网络单目标跟踪方法,其特征在于,利用分类分支和回归分支的损失作为一个额外的监督信号动态加权两个分支的预测损失,实现分类分支和回归分支的联合优化,并根据两个分支的损失优化基于注意力机制和分支对齐的孪生网络的网络参数。

7.根据权利要求6所述的一种孪生网络单目标跟踪方法,其特征在于,使用回归分支损失的占比 加权分支损失,表示为:其中, 表示Focal loss, 表示回归分支损失, 为正样本数, 对应分类特征图上位置 处的分类得分, 代表位置 上的真实分类标签0或1, 表示位置 上的分类分支损失, 表示对应分类特征图上位置 处的分类得分, 表示分类分支总损失,将分类分支损失的占比 动态地加权回归损失:其中 为IoU损失, 是一个标志函数,当真实分类标签 ,位置 为正样本时,该函数等于1,否则等于0, 为跟踪目标的真实边界框, 为回归信息响应图位置 上预测的边界框, 、 分别表示预测边界框的左上顶点和右下顶点坐标, 表示回归分支总损失, 表示分类分支损失占总损失的占比,回归信息响应图上当前位置 映射回搜索区域图像上对应位置 , 与预测边界框左、上、右、下边界的距离为l、t、r、b,通过下式得到 、 、 、 的值:增加一个定位分支专门用于预测定位精度,定位分支的损失函数如下:其中 是二分类交叉熵损失, 表示计算预测边界框 和真实框 的交并比函数, 表示回归信息响应图上位置 处预测的交并比,在推理期间,通过将 与相乘来计算得到最终的跟踪分数,用于对预测的边界框精确度进行排序;

根据上述三个分支的损失函数,将最终训练损失函数定义为:

8.一种孪生网络单目标跟踪装置,其特征在于,所述装置包括:处理器;

存储器,其上存储有可在所述处理器上运行的计算机程序;

其中,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的一种孪生网络单目标跟踪方法。