1.一种基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述方法包括如下步骤:步骤一、通过摄像头与热成像装置采集当前场景下的RGB图像信息与热力图像信息;
步骤二、利用经过预训练的ResNet特征提取网络对RGB图像信息与热力图像信息分别进行特征提取以对应得到RGB图像特征与热力图像特征;基于线性假设的方法将RGB图像信息与热力图像信息进行对齐,使用基于ResNet的孪生网络对RGB图像信息与热力图像信息共同进行特征提取以得到RGB‑热力图像特征;
步骤三、利用基于Transformer编码器的特征融合网络,将所述RGB图像特征、热力图像特征以及RGB‑热力图像特征两两配合进行复合编码以得到编码后的特征图;
步骤四、将所述编码后的特征图输入至基于Transformer的特征匹配网络中进行扩充与匹配,以得到模板特征图与背景特征图的匹配结果,并利用基于循环窗口注意力的匹配机制对所述模板特征图与背景特征图的匹配结果进行扩充再匹配以得到第一特征图;
步骤五、将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归,并基于设计的损失函数返回误差计算值并进行反向传播;
步骤六、通过快速梯度下降法确认当前回归框的损失,当回归框损失最小时,结束训练并输出各网络权重文件;
步骤七、根据最终得到的各网络权重文件,构建多模态目标跟踪器并实时确定所跟踪的目标在图像中的位置。
2.根据权利要求1所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述ResNet特征提取网络为ResNet50特征提取网络,在所述步骤二中,所述方法还包括:利用ResNet50特征提取网络在ImageNet10k数据集上的预训练数据,对RGB图像信息与热力图像信息分别进行特征提取;
根据设定图像大小与给定的第一帧框图数据,对RGB图像信息中的RGB图像进行调整;
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值;
根据当前输出的损失值计算得到整体网络对应的最终网络损失值,其中所述整体网络由ResNet特征提取网络、基于ResNet的孪生网络、基于Transformer编码器的特征融合网络以及基于Transformer的特征匹配网络组成。
3.根据权利要求2所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,对RGB图像信息中的RGB图像进行调整的步骤中,对应的表达式为:其中, 表示处理后的RGB图像的输出, 表示当前RGB图像的输入, 表
示当前热力图像的大小, 表示当前RGB图像的大小, 表示图像中心点的偏移量;
利用KL散度对所述ResNet50特征提取网络进行约束计算以得到当前输出的损失值的步骤中,对应的表达式为:其中, 表示当前输出的损失值, 表示输出特征向量的维度, 表示RGB图像经过ResNet50特征提取网络所输出的特征向量中的第 列, 表示热力图像经过ResNet50特征提取网络所输出的特征向量中的第 列,表示输出的特征向量中的列数;
在根据当前输出的损失值计算得到整体网络对应的最终网络损失值的步骤中,整体网络对应的最终网络损失值表示为:其中, 表示整体网络对应的最终网络损失值, 表示后续网络反向传播
回的损失值, 表示超参数。
4.根据权利要求3所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤三中,将所述RGB图像特征、热力图像特征以及RGB‑热力图像特征两两配合进行复合编码以得到编码后的特征图的步骤中,进行编码操作对应的公式表示为:其中, 表示编码器的输出, 表示Softmax函数, 表示RGB图像经过ResNet50特征提取网络的特征向量, 表示RGB图像, 表示热力图像, 表示热力图像经过ResNet50特征提取网络的特征向量, 表示总特征向量的维数,表示自然常数,表示卷积操作, 表示当前层的输入。
5.根据权利要求4所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,基于Transformer的特征匹配网络对应的公式表示为:其中, 表示Transformer网络的输出, 表示Query向量生成网络的输出, 表示Key向量生成网络的输出, 表示Value向量生成网络的输出, 表示当前层的维度, 均表示第一类型可学习参数, 均表示第二类型可学习参数, 表示矩阵转置。
6.根据权利要求5所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,所述步骤四具体包括:将输入的模板特征图在背景特征图上进行上下左右平移,并生成大于原始背景特征图尺寸的匹配热力图;
使用大小为 的模板组,对扩充过的编码后的特征图进行模板帧与背景帧的匹配,以得到模板特征图与背景特征图的匹配结果;其中,进行匹配时的步幅大小为 ;
其中,模板组 的大小设为 ,第一特征图的特征图大小为
,表示第i个模板的边长, 表示第i个特征向量的维度数。
7.根据权利要求6所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,将所述第一特征图输入至基于多层感知机模型的回归器中进行回归框的回归的步骤中,对应的公式表示为:其中, 表示多层感知机模型网络的输出, 表示最终回归的结果。
8.根据权利要求7所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,在基于设计的损失函数返回误差计算值并进行反向传播的步骤中,对于输出的损失函数,存在如下公式:其中, 表示当前框对于真实框的损失, 表示当前框与真实框的重合程度,表示当前框与真实框坐标位置差量的值, 表示当前框与真实框坐标大小差量的值, 表示当前框与真实框横坐标的均方差的值, 表示当前框与真实框纵坐标的均方差的值,表示当前框与真实框横坐标或纵坐标的均方差的值, 表示当前框与真实框之间高的差值, 表示当前框与真实框之间宽的差值, 表示目标真实框的横坐标, 表示目标真实框的纵坐标, 表示跟踪器预测的目标横坐标, 表示跟踪器预测的目标纵坐标,表示当前框与真实框的缩放系, 表示当前框与真实框的大小的比, 表示当前框与真实框坐标大小的均方差的值, 表示当前框与真实框之间宽度的缩放系数, 表示当前框与真实框之间高度的缩放系数, 表示根据当前框与真实框之间宽度或高度的缩放系数计算得到的值, 表示跟踪器预测的宽, 表示跟踪器预测的高, 表示目标真实框的宽,表示目标真实框的高,表示给定超参数。
9.根据权利要求8所述的基于Transformer的孪生多模态目标跟踪方法,其特征在于,在所述步骤五中,所述方法还包括:在完成每轮反向传播的迭代计算后,使用预设的学习率公式对学习率进行更新,对应的学习率更新公式表示为:其中, 表示更新后的学习率, 表示最小的学习率, 表示最大的学习率, 表示当前epoch的索引, 表示最大epoch的索引。