利索能及
我要发布
收藏
专利号: 2023107116440
申请人: 重庆理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Transformer的跨模态行人重识别方法,其特征在于:至少包括以下步骤:S1:获取跨模态行人重识别数据集,并且对两种模态行人图像进行数据增强;

S2:将原始地将要输入RGB图像分支的图像进行灰度增强;

所述S2中的灰度增强至少包括以下步骤:

将原始地将要输入RGB图像分支的图像进行灰度变换,并将其对应的标签设置为同原始RGB图像一致;

把原始的RGB图像和灰度变换后的图像共同输入到RGB模态特有的分支中;

具体公式为:

Gray=R×0.299+G×0.587+B×0.114S3:将数据集图像按照模态拆分成RGB模态和IR模态两个部分,然后再将划分后的两个部分以及进行灰度增强后的部分分别送入模态特有线性集成模块中,得到对应的序列;

所述S3中对于输入模型的每一批次图像,里面包含来自两种模态的行人图片,每一种模态占这一批次图像总数的一半,将划分后的IR图像输入到IR模态特有线性集成模块中,RGB图像和灰度增强后的图片分别送入RGB模态特有线性集成模块中;

H×W×C

对于模态特有线性集成模块,给定一个输入的图像x∈A ,其中的H,W,C分别指的是图像的高度、宽度和通道数量;

使用重叠采样的策略来处理输入的图像x,这样获得更好的局部邻近的表示能力;

将采样的步长设为s,采样块的尺寸边长设置为p,则输入的图像x被分成N个固定尺寸i的分块[x|i=1,2,…,N],N的计算公式为:其中 表示取对应结果的下边界,XH和XW分别指的是在高和宽的轴向上的分块个数;

当s小于p的时候,得到重叠采样的效果,并且当s更小的时候,重叠采样的区域更多;

采用与Vision Transformer相同的设置,对N个分块进行线性映射后,模型在第一个分块之前添加了一个分类标示符来捕捉全局的信息后为每一个分块添加了一个可学习的位置编码集成EP来维护空间信息,最后的输出为:

1 2 N

Z0=[XCLS,xE,xE,…,xE]+EP

1×D p×p×C×D i

其中的XCLS∈A 代表的是分类标示符,E∈A 表示在采样的x,i∈[1,N],i∈Z,分(N+1)×D块上进行线性变换的变换矩阵,EP∈A 表示位置编码集成;

S4:将S3得到的序列分别送入对应模态的S个特有的Transformer编码器模块中;

S5:将经过两个特有分支后的图像集合组合起来,送入到L‑S个共享的Transformer编码层中,并根据对应的损失函数计算获取整体损失,其中L为整个模型有L个Transformer编码层。

2.根据权利要求1所述的一种基于Transformer的跨模态行人重识别方法,其特征在于:所述S1中的获取跨模态行人重识别数据集中的行人图像均包含了完整的人体躯干。

3.根据权利要求1所述的一种基于Transformer的跨模态行人重识别方法,其特征在于:所述S1中的数据增强至少包括以下步骤:对于两种模态的行人图像,至少使用水平翻转、边缘填充、灰度变换、统一剪裁、随机剪裁、随机裁剪再拼接、随机轻微角度旋转、随机位置变换、随机添加噪声、随机擦除、图像锐化中的一种进行数据增强;

转为张量并进行归一化后再进行标准化。

4.根据权利要求1所述的一种基于Transformer的跨模态行人重识别方法,其特征在于:所述S3和S4中的模态特有分支,网络结构是完全相同的,但不共享的权重配置,每一个分支包含了一个对图像分块做线性变换的模块和对分块进行编码的S个相同的编码模块,具体变化过程公式:m m

T=P(I)

其中P(·)指的是线性变换操作,E(·)指的是Transformer的编码操作;

将经过两个特有分支后的图像集合 和 组合起来,送入到S5中得到L‑S个共享的Transformer编码层中。

5.根据权利要求1所述的一种基于Transformer的跨模态行人重识别方法,其特征在于:所述S4和S5中Tranformer编码层的每一层由一个多头自注意力机制和一个多层感知机模型构成,将分层正则化应用到每个多头自注意力机制模块和多层感知机模块之前,并且在上述的两个模块间应用了一个残差连接;

Transformer编码层共包含了两个阶段,从上一层输入的数据通过多头自注意力机制的阶段公式为:Z′c=Zc‑1+MSA(LN(Zc‑1)) c∈1,2,…,L第i个Transformer编码层的输出公式为:Zc=Z′c+MLP(LN(Z′c)) c∈1,2,…,L所述S5中,完成对之前在模态特有分支中各自挖掘的模态特有特征的筛选和融合,选择出共有的模态无关特征作为最终的行人特征表示,其中均对最后一个Transformer编码层的第一个分类标示符使用了批次困难采样三元组损失和交叉熵损失,在使用交叉熵损失之前,还使用了批次正则化瓶颈策略来同步收敛两种不同的损失;

对于两个图像之间的相似度计算,使用余弦距离及欧式距离中的一种作为两个图像的相似度值;

对于两张图像x1,x2,他们的相似度值记为

在三元组损失中,网络f接收三张图像,这三张图像分别是锚点(xa)、正样本(xp)和负样本(xn),其中正样本和锚点构成正样本对,负样本和锚点构成负样本对,则三元组损失公式为:其中α指的是边界阈值参数,用于控制优化的力度;

交叉熵损失以及S5总的损失函数分别表示为:

L=LID+Ltri

其中p(v)指的是输入图像x属于第v,v∈[1,N],v∈Z,个行人身份的概率值,q(v)指的是图像的真实标签,若图像x的真实标签为v,则q(v)=1,反之则q(v)=0。