利索能及
我要发布
收藏
专利号: 2022107631413
申请人: 山东省人工智能研究院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,包括以下步骤:步骤1:对图片进行预处理,进行数据增强,将图片像素大小调整为256×128,并对图片随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;

步骤2:构建双链网络模型,并进行训练,链一采用基于HRNet的卷积神经网络,链二采用基于ViT‑B/16的Transformer;

步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征;

步骤4:通过训练后的链二将每张输入图像经过处理后得到4个局部特征组与1个全局特征;

步骤5:利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery中的相关样本进行补全得到补全后的局部特征;

步骤6:将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集与query集各个样本的特征欧氏距离,通过gallery集合中的样本按照与query集合中样本距计算累计匹配特性与均值平均精度,最终实现对行人样本的重识别。

2.根据权利要求1所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,链一的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合表示人体部分,具体步骤如下:步骤2‑1:给定n张来自不同行人的训练图像 及其身份标签 ,所述n大于等于1,通过学习人类语义解析,获得用于重识别的像素级的部分特征表示的部分对齐表示,对于图像 ,使用骨干网 映射函数得到全局特征图 ,全局特征图为输入大小的1/4;

其中 是主干的参数,c、h、w是通道、高度和宽度;

用 表示空间位置 处的特征,是一个c维的向量;

步骤2‑2:将5个不同语义部分的置信度图 , , , , 相加得到1个前景的置信度图 ;

将每个置信图与语义部分相关联,通过下式计算得到n个部分语义特征、1个前景语义特征和1个全局语义特征:式中, 表示属于语义部分k的像素 的置信度, ,K表示划分的人体部分数,表示是逐元素相乘, 表示全局平均池化操作, 为第 部分的语义特征;

步骤2‑3:链一最终输出的局部语义特征记为 ,且 ,其中意为沿通道方向拼接, 为前景语义特征, 为全局语义特征。

3.根据权利要求2所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,链二的训练过程如下:步骤3‑1:将图像 分成大小固定的 个patch,其中 , ,分别表示其高度、宽度和通道数,

式中S为使用滑动窗口生成像素重叠的补丁的步长,P为patch的大小,其中和 为向下取整操作;

步骤3‑2:计算馈入 层的Transformer层的输入序列,具体公式如下:式中, 表示输入序列嵌入, 是位置嵌入, 是将面片映射到D维的线性投影; 为一个可学习的[cls]嵌入令牌; 经过 层的Transformer层处理,得到;

步骤3‑3:利用洗牌模块将嵌入的patch通过移位操作和洗牌操作对嵌入的patch进行洗牌,然后重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入,将序列嵌入序列 打乱如下:第一步:移位操作,将除了[cls]令牌的第一个 个补丁被移动到最后,即转换为 ;

第二步:洗牌操作,通过 组的patch shuffle操作对移位的patch进行进一步的洗牌,隐藏特征变为 ;

经过洗牌操作后的局部特征组 再经过一个标准的Transformer层处理后得到最终的Transformer局部特征组 ;

步骤3‑4:利用姿态估计辅助模块获取姿势引导特征 ;具体步骤如下:使用估计器从输入图像中提取16个关键点地标,然后利用这些地标生成热图,每个热图都被缩小到 的大小,每个热图的最大响应点对应于一个关键点,设置一个阈值 过滤高置信度地标和低置信度地标,热图标签表示为:其中 表示第 个地标的置信度得分,将一个完全连接的层应用于热图 ,以获得与全局特征 尺寸相同的热图 ,对 和 进行相乘,并获得姿势引导特征 ,即关键点特征;

步骤3‑5:进行关键点‑局部特征组相似度匹配;

在链二中,将 个关键点特征归类于 个局部特征组 中,并对局部特征组进行关键位置加强;

部分相似度匹配层将关键点特征与局部特征组的融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点信息:其中 为生成图像16个关键点特征集合, 为链二输出第 个局部特征组, 则为匹配生成后的第 个包含关键点信息的局部特征组,k为与 最相似的 的编号。

4.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述链一训练过程中需要使用三元组损失和交叉熵损失函数约束通过最小化两种损失函数确定最优网络参数;

所述链二输出全局特征以及洗牌后的局部特征组后,也分别使用了交叉熵损失函数与三元组损失函数进行约束;

三元组损失公式如下:

其中m为当前批次的最大距离边界, 表示锚点样本与对应正样本的融合特征距离, 表示锚点样本与对应负样本的融合特征距离;

交叉熵损失函数公式如下:

其中CE为交叉熵损失,当 为类别 的分类器的预测结果, 为真实id。

5.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述步骤5具体步骤如下:步骤5‑1:选取相关gallery样本:

步骤5‑1‑1:将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery各个样本的特征欧氏距离dist1;

步骤5‑1‑2:利用步骤5‑1‑1得到的欧氏距离dist1计算找到与每个query样本特征 欧氏距离最小的最佳gallery样本特征 作为候选样本特征;

步骤5‑1‑3:将query样本特征 和其最佳gallery样本特征 分别沿通道方向拆分成5份,query样本特征 拆分为 ,其最佳gallery样本特征 拆分为;

步骤5‑2:将缺失部位特征补全:

步骤5‑2‑1:链一根据属于语义部分q的像素 的置信度 的情况得到语义部分q的部分可见性系数 ,计算公式如下:;

步骤5‑2‑2:利用query样本特征的部分可见性系数 计算候选部分系数 ,计算公式如下:

步骤5‑2‑3:根据候选gallery样本特征与候选部分系数计算候选局部语义特征补丁 ,计算公式如下:;

其中 为最佳gallery样本第 部分的局部语义特征, 是最佳gallery样本第 部分的局部语义特征的可见性系数;

步骤5‑2‑4:将query样本特征的可见部分的局部语义特征,与候选样本特征进行组合得到query样本的补全局部语义特征,计算公式如下:其中 是query样本第 部分的局部语义特征, 是候选样本第 部分的局部语义特征。

6.根据权利要求3所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述 取值为4。