利索能及
我要发布
收藏
专利号: 2024100971837
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于语义一致性的换装行人重识别方法,其特征在于,包括如下步骤:步骤1、获取数据集并进行预处理,根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构;

步骤2、构建基于语义一致性的换装行人重识别网络模型;

所述步骤2中,基于语义一致性的换装行人重识别网络模型包括三部分,分别为:遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分;遮挡衣服图像处理部分包括解码器1和降维操作;原始图像处理部分包含解码器1、特征切分模块和降维操作;三维人体处理部分包括解码器2和降维操作;解码器1和解码器2均为ResNet结构,但计算时二者内部参数不同;降维操作包含平均池化、最大池化和归一化三个步骤;ResNet为深度残差网络;

所述步骤2中,基于语义一致性的换装行人重识别网络模型的工作过程为:步骤2.1、将原始图像输入解码器1得到原始图像特征图 将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图 其中H和W表示特征图的高和宽,C表示维度的大小;

步骤2.2、将Fr、Fb分别在通道维度进行池化获得池化后的结果即将通道维数压缩为1;

步骤2.3、Fr、Fb分别经过降维操作得到原始图像特征fr、遮挡衣服图像特征fb;

步骤2.4、将Fr输入特征切分模块,特征切分模块对整个Fr进行切分得到若干个切分子特征,给各个切分子特征分配一个特征权重,各个切分子特征的特征权重在网络优化过程中自动更新,学习获得的权重经过softmax函数后与切分子特征相乘得到切分特征fsplit;

步骤2.5、将三维人体结构输入到解码器2中,得到三维人体特征图Fsmpl,Fsmpl经过降维操作得到三维人体特征fsmpl;

步骤3、构建损失函数,基于训练数据集和损失函数对模型进行训练优化;所述步骤3的具体过程为:步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失,一致性损失Lsc的计算公式如下:其中,i为图像序号索引;N为样本总数;

步骤3.2、将fsplit和fsmpl分别和fr计算交互损失,并将两个交互损失相加得到总交互损失Lin,计算公式为:步骤3.3、构建交叉熵损失函数Lcross,计算公式为:其中,y表示行人标签;y′i表示预测的行人标签;

构建难样本采样三元组损失函数LTriH,计算公式为:

其中,P为不同行人的数量;K为不同图像的数量;batch为训练批次;p为与基准图像最不相像的正样本;A为与图像i具有相同身份的图像集;dap为基准图像和最不像的正样本间的距离;n为与基准图像最相像的负样本;B为与图像i具有不同身份的图像集;dan*为基准图像和最像的负样本间的距离;α是可调节的阈值参数;

步骤3.4、最终,训练过程的整体损失函数L被定义为:

L=λLsc+Lin+Lcross+LTriH (6);

其中,λ为超参数,用于平衡一致性损失的重要性;

步骤4、基于训练完成的模型进行换装行人重识别。

2.根据权利要求1所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤

1的具体过程为:

步骤1.1、获取公开数据集作为训练数据集;采集各个监控摄像头下的所有行人图像作为测试数据集;测试数据集中包含查询集和图库集两部分,查询集是当前待查询行人图像的集合,图库集是与查询集进行匹配的候选行人图像的集合;数据集中的数据均为RGB图像;

步骤1.2、将训练数据集中的原始图像采用SPIN方法生成行人对应的三维人体结构,三维人体结构中包含行人的体型信息以及姿态信息;SPIN为一种通过单幅图像生成三维人体结构的方法;

步骤1.3、将训练数据集中的原始图像采用SCHP方法生成行人人体解析图像,根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色,得到遮挡衣服图像;SCHP为人体解析自校正方法;

步骤1.4、将原始图像和遮挡衣服图像的大小均调整为384*192像素。

3.根据权利要求1所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤

4的具体过程为:

步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入,将模型输出三维人体特征 和原始图像特征 在通道维度拼接到一起,得到最终的行人特征步骤4.2、计算查询集中行人图像与图库集各行人图像的相似度;

相似度计算公式为:

其中,da,b为查询集的行人图像a与图库集的行人图像b的相似度; 表示查询集的行人图像a的特征向量, 表示图库集的行人图像b的特征向量, 表示查询集的行人图像a的特征向量的模长, 表示图库集的行人图像b的特征向量的模长;

步骤4.3、将所有相似度的取值按照由高到低的顺序进行排序,将相似度值最高的前十张行人图像作为重识别结果输出。