利索能及
我要发布
收藏
专利号: 2023103510005
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Transformer网络模型的行人重识别方法,其特征在于,所述方法包括:

获取目标行人图像,并对所述目标行人图像进行预处理,生成标准行人图像;所述目标行人图像为待进行行人重识别的行人图像;

将所述标准行人图像采用滑动窗口划分为多个具有重叠部分的方形子图像;

对各个方形子图像经过水平线性投影和垂直线性投影,得到垂直特征矩阵和水平特征矩阵;

将所述垂直特征矩阵和所述水平特征矩阵输入到预先训练好的改进Transformer网络模型中,预测得到目标行人图像的识别结果;

其中,所述改进Transformer网络模型包括双重多尺度的Transformer结构、L‑1层Origin Transformer结构和全连接层;所述双重多尺度的Transformer结构用于计算基于水平特征矩阵和垂直特征矩阵而得到的不同尺度的全局特征矩阵和局部特征矩阵,并将所述全局特征矩阵和所述局部特征矩阵进行特征融合;所述L‑1层Origin Transformer结构用于将融合后的特征矩阵进行处理,提取出行人特征;所述全连接层用于对所述行人特征处理,预测得到目标行人图像的识别结果;

所述双重多尺度的Transformer结构包括两个多尺度Transformer结构,即水平多尺度Transformer结构和垂直多尺度Transformer结构;其中水平多尺度Transformer结构对水平特征矩阵进行计算,垂直多尺度Transformer结构对垂直特征矩阵进行计算;每个多尺度Transformer结构包括基于顶层分支、中层分支和底层分支的多分支多头注意力模块,其中顶层分支对输入特征矩阵不做任何处理,直接提取行人的全局特征,而中层分支对输入特征矩阵进行二等分进而提取行人的局部特征,底层分支对输入特征矩阵进行三等分进而提取行人的局部特征;将水平多尺度Transformer结构的全局特征及其对应两个分支的局部特征进行融合拼接,输出水平融合特征矩阵;将垂直多尺度Transformer结构的全局特征及其对应两个分支的局部特征进行融合拼接,输出垂直融合特征矩阵;将所述水平融合特征矩阵使用水平权重矩阵投影后,得到水平多尺度Transformer结构的特征矩阵;将所述垂直融合特征使用垂直权重矩阵投影后,得到垂直多尺度Transformer结构的特征矩阵;再将水平特征矩阵与垂直特征矩阵通过权重矩阵投影的方式进行特征融合,得到首层双重多尺度Transformer结构的特征矩阵。

2.根据权利要求1所述的一种基于Transformer网络模型的行人重识别方法,其特征在于,所述标准行人图像的子图像划分过程包括:将所述标准行人图像划分为多个不重叠的分组子图像;将每个分组子图像分别采用滑动窗口划分为多个具有重叠部分的方形子图像。

3.根据权利要求2所述的一种基于Transformer网络模型的行人重识别方法,其特征在于,每个所述标准行人图像被划分为N个具有重叠部分的方形子图像,其中N的计算公式如下:其中,H为标准行人图像高度,W为第标准行人图像宽度,S为步长,P为方形子图像的高和宽,K表示分组子图像的分割总数,K=K1×K2;K1表示纵向分割的分组子图像个数,K2表示横向分割的分组子图像个数。

4.根据权利要求1所述的一种基于Transformer网络模型的行人重识别方法,其特征在于,所述对各个方形子图像经过水平线性投影和垂直线性投影,得到水平特征矩阵和垂直特征矩阵包括:将各方形子图像分别按照水平展开方式进行线性投影得到各子图像的水平2

展开向量,再将N个水平展开向量在垂直方向上进行拼接,得到N×P的水平特征矩阵;将各方形子图像分别按照垂直展开方式进行线性投影得到各子图像的垂直展开向量,再将N个2

垂直展开向量在水平方向上进行拼接,得到P×N的垂直特征矩阵,其中,P为方形子图像的高和宽。

5.根据权利要求1所述的一种基于Transformer网络模型的行人重识别方法,其特征在于,对所述水平特征矩阵进行计算前还包括在所述水平特征矩阵中加入位置和分组信息;

对所述垂直特征矩阵进行计算前还包括在所述垂直特征矩阵加入位置和分组信息。

6.根据权利要求1所述的一种基于Transformer网络模型的行人重识别方法,其特征在于,所述改进Transformer网络模型的预先训练过程包括:获取训练行人图像,并对所述训练行人图像进行预处理,生成标准行人图像;所述训练行人图像为用于训练改进Transformer网络模型的行人图像;

将所述训练行人图像对应的标准行人图像采用滑动窗口划分为多个具有重叠部分的方形子图像;

对所述训练行人图像对应的各个方形子图像经过水平线性投影和垂直线性投影,得到垂直特征矩阵和水平特征矩阵;

将所述训练行人图像对应的所述水平特征矩阵和垂直特征矩阵输入到改进Transformer网络模型中,使用损失函数训练网络模型的参数;

当所述改进Transformer网络模型达到预设迭代次数或者收敛,所述改进Transformer网络模型训练完成。

7.一种基于Transformer网络模型的行人重识别装置,其特征在于,所述装置包括:

图像获取模块,用于获取目标行人图像;所述目标行人图像为待进行行人重识别的行人图像;

图像预处理模块,用于对所述目标行人图像进行预处理,生成标准行人图像;

图像分割模块,用于将所述标准行人图像采用滑动窗口划分为多个具有重叠部分的方形子图像;

图像映射模块,用于对各个方形子图像进行水平线性投影和垂直线性投影,得到水平特征矩阵和垂直特征矩阵;

图像识别模块,用于将所述水平特征矩阵和垂直特征矩阵输入到预先训练好的改进Transformer网络模型中,预测得到目标行人图像的识别结果;

其中,所述改进Transformer网络模型包括双重多尺度的Transformer结构、L‑1层Origin Transformer结构和全连接层;所述双重多尺度的Transformer结构用于计算基于水平特征矩阵和垂直特征矩阵而得到的不同尺度的全局特征矩阵和局部特征矩阵,并将所述全局特征矩阵和所述局部特征矩阵进行特征融合;所述L‑1层Origin Transformer结构用于将融合后的特征矩阵进行处理,提取出行人特征;所述全连接层用于对所述行人特征处理,预测得到目标行人图像的识别结果;

所述双重多尺度的Transformer结构包括两个多尺度Transformer结构,即水平多尺度Transformer结构和垂直多尺度Transformer结构;其中水平多尺度Transformer结构对水平特征矩阵进行计算,垂直多尺度Transformer结构对垂直特征矩阵进行计算;每个多尺度Transformer结构包括基于顶层分支、中层分支和底层分支的多分支多头注意力模块,其中顶层分支对输入特征矩阵不做任何处理,直接提取行人的全局特征,而中层分支对输入特征矩阵进行二等分进而提取行人的局部特征,底层分支对输入特征矩阵进行三等分进而提取行人的局部特征;将水平多尺度Transformer结构的全局特征及其对应两个分支的局部特征进行融合拼接,输出水平融合特征矩阵;将垂直多尺度Transformer结构的全局特征及其对应两个分支的局部特征进行融合拼接,输出垂直融合特征矩阵;将所述水平融合特征矩阵使用水平权重矩阵投影后,得到水平多尺度Transformer结构的特征矩阵;将所述垂直融合特征使用垂直权重矩阵投影后,得到垂直多尺度Transformer结构的特征矩阵;再将水平特征矩阵与垂直特征矩阵通过权重矩阵投影的方式进行特征融合,得到首层双重多尺度Transformer结构的特征矩阵。

8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令执行如权利要求1‑6任一项所述的一种基于Transformer网络模型的行人重识别方法。