利索能及
我要发布
收藏
专利号: 2024111631063
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,包括以下步骤:(1)监控摄像头拍摄行人视频上传至云端服务器,服务器对行人进行跟踪并裁剪图片;

(2)使用Transformer网络提取行人图像特征;

(3)融合聚类模块对提取的图像特征进行融合聚类;

(4)利用多级对比学习模块获取实例之间的关系;具体如下:创建内存库存储集群特征和实例特征,利用基于困难样本挖掘的实例级对比损失HIL和基于内存更新策略的集群级对比损失MUL进行训练;损失函数公式如下:;

其中, 代表实例级对比损失HIL, 则表示集群级对比损失MUL,参数 是介于0和1之间的平衡因子;

基于困难样本挖掘的实例级对比损失HIL的定义如下:

其中,q为查询实例特征,P表示样本对的数量, 为温度超参数, 为同一伪标签内余弦相似度排名最小的实例特征, 为困难负实例特征,对应于第i聚类,其余弦相似度排名最高;

其中, 表示q所属集群中的第k个正样本, 代表第i个聚类中的第k个样本,q为查询实例特征,k表示取值范围从1到K的所有整数;

基于内存更新策略的集群级对比损失MUL的定义如下:

其中,q为查询实例特征, 为集群i的代理特征; 为查询实例q所属集群的代理特征, 为温度超参数。

2.根据权利要求1所述的一种基于Transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(1)具体如下:采用Faster RCNN算法检测行人,并画出行人检测框,统一裁剪成256×256像素规格的行人图片组成图库集。

3.根据权利要求1所述的一种基于Transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(2)具体如下:首先,将输入图像经过批处理归一化IBN的卷积层处理,生成特征映射 ;其中,C代表图片的通道数,H代表的是图片的高度,W 代表的是图片的宽度;然后将图像特征分割为P个不重叠的块,并将每个块投影成一个D维特征作为嵌入标记;并附加一个额外的可学习类令牌添加到输入序列中,将其作为Transformer网络的输入;最后,送入到包含L个Transformer层的网络中,每层都由多头注意力MSA和多层感知MLP模块组成;Transformer网络最终的输出记为 。

4.根据权利要求1所述的一种基于Transformer和融合聚类的对比学习无监督行人重识别方法,其特征在于,步骤(3)具体如下:使用DBSCAN聚类算法生成伪标签来进行模型训练;在聚类阶段,采用不同的超参数运行DBSCAN聚类算法,获取多个聚类结果,将多个聚类结果进行融合;将属于同一个集群的行人图像分配相同的伪标签;最终得到新的带有标签的数据集,表示为 ;其中, 表示集群的标签, 为实例数量,Q表示为集群的数量;其中,超参数 为0.45,0.5,0.55,0.6。