1.一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,具体包括如下步骤:
S1:获取第一摄像机拍摄的行人图像数据与行人视频数据,并对所述行人图像数据和行人视频数据进行预处理,根据预处理后的所述行人图像数据与行人视频数据构建第一有标记训练集、第一无标记训练集和第一验证集;获取第二摄像机拍摄的行人图像数据与行人视频数据,进行上述相同的预处理,并构建第二有标记训练集、第二无标记训练集和第二验证集;
S2:为第一摄像机和第二摄像机分别构建各自对应的改进型SSD网络,所述改进型SSD网络包括基础网络、多尺度网络、行人特征提取子网络、行人部件识别子网络、定位子网络和定位预测框筛选模块;
S3:为第一摄像机和第二摄像机各自对应的改进型SSD网络的行人特征提取子网络输出的行人特征,构建共同的半监督迁移字典学习模块;
所述半监督迁移字典学习模块包括半监督迁移字典学习子模块和预测结果融合子模块;
所述半监督迁移字典学习子模块包括行人整体特征的半监督迁移字典学习子模块、行人头部特征的半监督迁移字典学习子模块、行人上半身特征的半监督迁移字典学习子模块和行人下半身特征的半监督迁移字典学习子模块;
S4:利用第一有标记训练集、第一无标记训练集和第一验证集训练S2中为第一摄像机构建的改进型SSD网络以及S3中构建的半监督迁移字典学习模块,同时利用第二有标记训练集、第二无标记训练集和第二验证集训练S2中为第二摄像机构建的改进型SSD网络以及S3中构建的半监督迁移字典学习模块,得到端到端的行人目标检测与重识别系统;
S5:将待识别的行人图像或行人视频进行预处理后,输入至S4所述行人目标检测与重识别系统,得到行人目标检测与重识别结果。
2.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S1的方法具体包括:S1.1:获取第一摄像机拍摄的行人图像数据与行人视频数据,并对所述行人图像数据和行人视频数据进行预处理,具体包括:将获取的行人视频数据转换为行人视频帧图像序列,将全部行人图像和行人视频帧图像保持宽高比并将较长的边缩放到257个像素,居中放置在大小为257*257的黑底图像中;
在所述行人视频帧图像序列中,利用Lucas‑Kanade算法计算相邻两个视频帧之间的光流轨迹图,并插入到两个视频帧之间;
S1.2:将由第一摄像机获取的行人图像数据和行人视频帧图像序列按照一定比例构建第一有标记训练集、第一无标记训练集和第一验证集;同样,将由第二摄像机获取的行人图像数据和行人视频帧图像序列按照同样的比例构建第二有标记训练集、第二无标记训练集和第二验证集;
S1.3:对第一有标记训练集、第一验证集、第二有标记训练集和第二验证集中每一幅行人图像和行人视频帧图像中行人整体、行人头部、行人上半身和行人下半身的边界框进行人工标注,获得行人目标检测边界框的位置和大小,并根据行人目标检测边界框标示的区域标注行人类别和行人部件类别;
其中,行人类别表明边界框标示的区域属于哪个行人;
行人部件类别包括四类,分别为行人整体、行人头部、行人上半身和行人下半身,表明边界框标示的区域属于行人整体、行人头部、行人上半身、行人下半身这四个类别中的哪一个。
3.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S1所述行人图像数据中每一幅行人图像均包括行人目标,并且对同一个行人目标至少获取得到三幅图像;同时至少50%的行人目标由第一摄像机和第二摄像机同时获取得到;剩余部分行人目标只由第一摄像机或第二摄像机获取得到;
S1所述行人视频数据中每一段行人视频均包括行人目标,并且对同一个行人目标至少获取三段不少于50帧的视频;同时至少50%的行人目标由第一摄像机和第二摄像机同时获取得到;剩余部分行人目标只由第一摄像机或第二摄像机获取得到。
4.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S2所述为第一摄像机和第二摄像机分别构建各自对应的改进型SSD网络,构建方法如下:
设置为第一摄像机构建的改进型SSD网络为第一网络,为第二摄像机构建的改进型SSD网络为第二网络;
S2.1:将SSD300网络中的基础网络VGG‑16更换为改进的ResNet34V2,所述改进的ResNet34V2的结构依次为:输入层→第一卷积模块→第二卷积模块→第三卷积模块→第四卷积模块→第五卷积模块;
其中,输入层对输入图像的大小限制为257×257;
第一卷积模块由通道数为64的3个3×3卷积层依次连接组成,输出特征图大小不变;
第二卷积模块由通道数为64的1个第一残差模块和2个第二残差模块依次连接组成,输出特征图大小为129×129;
第三卷积模块由通道数为128的1个第一残差模块和3个第二残差模块依次连接组成,输出特征图大小为65×65;
第四卷积模块由通道数为256的1个第一残差模块和5个第二残差模块依次连接组成,输出特征图大小为33×33;
第五卷积模块由通道数为512的1个第一残差模块和2个第二残差模块依次连接组成,输出特征图大小为17×17;
所述第一残差模块结构表示如下:xk+1=[xk→BatchNormalization→Relu→Conv2D(3×3,Strides=2)→BatchNormalization→Relu→Conv2D(3×3,Strides=1)]+[xk→Conv2D(1×1,Strides=
2)]
所述第二残差模块结构表示如下:xk+1=[xk→BatchNormalization→Relu→Conv2D(3×3,Strides=2)→BatchNormalization→Relu→Conv2D(3×3,Strides=1)]+xk式中,xk表示残差模块的输入,xk+1表示残差模块的输出,→表示函数映射,BatchNormalization表示批标准化,Relu表示线性整流函数,Conv2D(3×3,Strides=2)表示步长为2的3×3二维卷积,Conv2D(3×3,Strides=1)表示步长为1的3×3二维卷积,Conv2D(1×1,Strides=2)表示步长为2的1×1二维卷积;
S2.2:将SSD300网络中多尺度网络的第一个尺度的输出由VGG‑16的卷积层conv4_3→L2Normalization的输出更换为S2.1所述改进的ResNet34V2的第四卷积模块的输出,并在输出后添加BatchNormalization→Relu→L2Normalization;
其中,conv4_3是VGG‑16中第四卷积模块中的第三个卷积层,L2Normalization表示L2范数标准化;
S2.3:将SSD300网络中的多尺度网络的最后四个卷积模块更换为依次连接的通道数为
256的1个第一残差模块和通道数为128的3个第一残差模块,四个残差模块输出特征图大小依次为9×9、5×5、3×3、1×1,同时多尺度网络的后四个尺度的输出相应地分别更换为这四个残差模块的输出,并在每一个输出后添加BatchNormalization→Relu;
S2.4:将SSD300网络中原本的目标检测模块的每个卷积层后均添加一个BatchNormalization层,并设置其为定位子网络,用于生成定位预测框;
S2.5:将SSD300网络中原本的识别模块的每个卷积层后均添加一个BatchNormalization层,并设置其为行人部件识别子网络,用于识别定位预测框标示的区域的行人部件类别;
S2.6:利用标签平滑正则化方法优化行人部件类别的概率分布,所述标签平滑正则化方法如下:
将一幅行人图像或行人视频帧图像的行人部件类别的标签的one‑hot向量T
[0,…,0,1,0,…,0]平滑为
其中,ε为平滑因子,K是类别标签总数;
S2.7:在SSD300网络的多尺度网络之后,增加一个与定位子网络和行人部件识别子网络并行的行人特征提取子网络,用于提取每个定位预测框标示区域的特征;
S2.8:将SSD300网络中原来的Ground truth边界框匹配和非极大值抑制合并为定位预测框筛选模块,用于有标记图像的Ground truth边界框匹配和无标记图像的非极大值抑制,具体包括:
对于有标记训练图像,改进型SSD网络在定位子网络产生的所有定位预测框中,筛选得到与Ground truth边界框匹配的定位预测框;
对于无标记训练图像,改进型SSD网络在定位子网络产生的所有定位预测框中,利用非极大值抑制的处理方式筛选得到定位预测框;
S2.9:在SSD300网络的误差函数中增加行人特征提取子网络的特征误差,其中,特征误差表达式如下:
其中,E表示行人特征提取子网络的特征误差;X表示行人特征提取子网络输出的经过筛选后保留下来的所有定位预测框标示区域的特征的集合;A表示X输入半监督迁移字典学习模块之后反馈得到的对应的特征。
5.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S3中所述半监督迁移字典学习子模块训练阶段的目标函数如下:其中,w=1,2,3,4分别表示行人整体特征的半监督迁移字典学习子模块、行人头部特征的半监督迁移字典学习子模块、行人上半身特征的半监督迁移字典学习子模块和行人下半身特征的半监督迁移字典学习子模块,将行人整体特征的半监督迁移字典学习子模块简记为字典学习子模块1,行人头部特征的半监督迁移字典学习子模块简记为字典学习子模块2,行人上半身特征的半监督迁移字典学习子模块简记为字典学习子模块3,行人下半身特征的半监督迁移字典学习子模块简记为字典学习子模块4;v=A,B分别表示摄像机编号,v S vO S
其中A表示第一摄像机,B表示第二摄像机;C=C+C 表示摄像机v的行人类别总数;C 表示vO
第一摄像机A和第二摄像机B共有的行人类别个数;C 表示摄像机v独有的行人类别个数;
vw vw
X 表示来自摄像机v的字典学习子模块w的训练样本特征集; 表示X 中行人类别i的训v S
练样本特征子集,i=1,2,…,C ,其中,当i=1,2,…,C时,行人类别i是第一摄像机A和第二S S v
摄像机B共有的行人类别,当i=C+1,C+2,…,C时,行人类别i是摄像机v独有的行人类别;
vw vw vw vw vw
表示X 中的无标记训练样本特征子集;D 表示对应X 的字典;A 表示使用字典D 重构vw vw vw
X 的稀疏编码系数; 表示使用字典D 重构 的稀疏编码系数; 表示使用字典D 重vw
构 的稀疏编码系数;λ1和λ2表示权重系数; 表示字典D 中对应行人类别k的子字典,S
k=1,2,…,C;
vw
表示字典D 中对应行人类别i的子字典; 表示使用子字典 重构 的稀疏编码系数。
6.根据权利要求5所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S3所述半监督迁移字典学习子模块在预测阶段的预测方法如下:vw
在字典学习子模块w中,假设待识别样本特征y 来自摄像机v,其中v=A,B,w=1,2,3,vw vw
4,按照下面的公式计算y 的稀疏编码系数β ;
vw v
令 表示β中对应子字典 的稀疏编码系数,其中j=1,2,…,C ,按照下面的公式计vw
算y 与每个行人类别的置信度:令
vw vw
将待识别样本特征y 归入置信度最大的行人类别j*, 表示y 归入行人类别j*的置信度。
7.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S3中所述预测结果融合子模块,包括:S3.1:从第一网络和第二网络中定位预测框筛选模块各自筛选得到的定位预测框的行人部件类别中,选出行人部件类别为“行人整体”所有定位预测框;
S3.2:在每一个行人部件类别为“行人整体”定位预测框的标示区域内,选出所有非“行人整体”定位预测框;其中,每一个“行人整体”定位预测框和该定位预测框的标识区域内的全部非“行人整体”定位预测框组成一个行人组;
S3.3:对每一个行人组,均按照半监督迁移字典学习子模块预测阶段的预测方法对定位预测框的行人类别预测结果再进行小组划分,将预测为同一个行人类别的定位预测框划分到同一个小组内;
S3.4:对行人组中的每一个小组,计算该小组内所有定位预测框的平均置信度,并利用该平均置信度计算得到小组置信度;其中,计算公式如下:小组置信度=平均置信度×小组定位预测框个数占比S3.5:在每一个行人组内均选出该行人组内置信度最大的小组,将置信度最大的小组的行人类别和平均置信度作为其所在行人组的行人类别和置信度,将置信度最大的小组中“行人整体”定位预测框的定位结果作为该行人组的定位结果,由此得到每一个行人组的定位结果、行人类别和置信度。
8.根据权利要求6所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S4的方法具体包括:S4.1:随机初始化第一网络、第二网络的网络参数,以及半监督迁移字典学习模块的第A B
一字典D和第二字典D;
A A1 A2 A3 A4 B B1 B2 B3 B4其中,D=[D ,D ,D ,D ]对应第一摄像机,D =[D ,D ,D ,D ]对应第二摄像机,S
w=1,2,3,4,k=1,2,…,C ;
S4.2:将为第一摄像机构建的第一有标记训练集、第一无标记训练集和第一验证集输入第一网络,获得当前各自对应的第一有标记训练样本特征集、第一无标记训练样本特征集和第一验证样本特征集;将为第二摄像机构建的第二有标记训练集、第二无标记训练集和第二验证集输入第二网络,获得当前各自对应的第二有标记训练样本特征集、第二无标记训练样本特征集和第二验证样本特征集;
S4.3:利用第一有标记训练集和第一验证集,以及当前它们各自对应的第一有标记训练样本特征集和第一验证样本特征集训练第一网络;同时利用第二有标记训练集和第二验证集,以及当前它们各自对应的第二有标记训练样本特征集和第二验证样本特征集训练第二网络;
S4.4:将为第一摄像机构建的第一有标记训练集、第一无标记训练集和第一验证集输入第一网络,更新各自当前对应的第一有标记训练样本特征集、第一无标记训练样本特征集和第一验证样本特征集;将为第二摄像机构建的第二有标记训练集、第二无标记训练集和第二验证集输入第二网络,更新各自当前对应的第二有标记训练样本特征集、第二无标记训练样本特征集和第二验证样本特征集;
S4.5:利用第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练A
样本特征集和第二无标记训练样本特征集训练半监督迁移字典学习模块,更新第一字典DB
和第二字典D ,并获得相应的第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集;直至第一网络和第二网络中的误差函数以及半监督迁移字典学习子模块的目标函数均收敛,则表示训练完成;否则,进入S4.6;
A B
S4.6:利用第一字典D、第二字典D 、第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集更新第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集;
S4.7:利用第一有标记训练集、第一有标记训练样本特征集、第一验证集和第一验证样本特征集训练第一网络;利用第一无标记训练集和第一无标记训练样本特征集训练第一网络中的基础网络、多尺度网络和行人特征提取子网络,定位子网络和行人部件识别子网络固定不变;利用第二有标记训练集、第二有标记训练样本特征集、第二验证集和第二验证样本特征集训练第二网络;利用第二无标记训练集和第二无标记训练样本特征集训练第二网络中的基础网络、多尺度网络和行人特征提取子网络,定位子网络和行人部件识别子网络固定不变;返回S4.4;
其中,视频帧图像序列以一帧一帧地形式输入至网络中,同时每一段行人视频除第一帧外,其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入。
9.根据权利要求8所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S4.5所述利用第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集训练半监督迁移字典学习模块,所述方法具体包括:
训练半监督迁移字典学习模块需要对各个半监督迁移字典学习子模块训练阶段的目标函数利用迭代求解方法进行求解,字典学习子模块w的迭代求解方法具体包括:Aw Bw
S4.51:随机初始化字典D 和D ;
Aw Bw Aw Bw
S4.52:固定D 和D ,根据公式(1)求解稀疏编码系数A 和A ,令Aw Bw Aw Bw
S4.53:固定A 和A ,根据公式(1)更新D 和D ;
Aw Bw Aw Bw
S4.54:固定D 和D ,根据公式(1)更新A 和A ,令S4.55:设置阈值ε,ε>0;判断|J1‑J2|>ε是否成立;若不等式成立,则令J1=J2,返回S4.53;否则,停止迭代过程,字典学习子模块w训练完成;
其中,w=1,2,3,4。
10.根据权利要求8所述的一种基于深度网络和字典学习的行人目标检测与重识别方A B
法,其特征在于,S4.6所述利用第一字典D、第二字典D、第一有标记稀疏编码系数集、第一无标记稀疏编码系数集、第二有标记稀疏编码系数集和第二无标记稀疏编码系数集更新第一有标记训练样本特征集、第一无标记训练样本特征集、第二有标记训练样本特征集和第二无标记训练样本特征集,方法具体包括:Aw Aw Aw
对于字典学习子模块w,w=1,2,3,4,更新后的第一有标记训练样本特征集X =D A ;
更新后的第一无标记训练样本特征集 更新后的第二有标记训练样本特征Bw Bw Bw
集X =D A ;更新后的第二无标记训练样本特征集
11.根据权利要求1所述的一种基于深度网络和字典学习的行人目标检测与重识别方法,其特征在于,S5所述将待识别的行人图像或行人视频进行预处理后,输入至S4所述行人目标检测与重识别系统,得到目标检测与重识别结果,包括:S5.1:将所述待识别的行人图像或行人视频进行预处理,包括:将待识别的行人视频转换为行人视频帧图像序列,将全部行人图像和行人视频帧图像保持宽高比并将较长的边缩放到257个像素,居中放置在大小为257*257的黑底图像中;
在上述行人视频帧图像序列中,利用Lucas‑Kanade算法计算相邻两个视频帧之间的光流轨迹图,并插入到两个视频帧之间;
S5.2:将待识别的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统中,得到行人图像或行人视频帧图像序列对应的预测结果,所述预测结果包括定位结果、行人类别和置信度;
其中,由第一摄像机获取的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统的第一网络中,由第二摄像机获取的行人图像或行人视频帧图像序列输入至行人目标检测与重识别系统的第二网络中;
同时视频帧图像序列以一帧一帧地形式输入至网络中,同时每一段行人视频除第一帧外,其余每一帧都与当前帧和上一帧之间的光流轨迹图一起输入;
S5.3:设置置信度阈值,对行人图像或行人视频帧图像序列对应的预测结果进行分析,得到行人目标检测和重识别结果,包括:在所述预测结果中,判断行人组的置信度是否不小于置信度阈值,同时该行人组的行人类别属于单个摄像机独有,则该行人组所在的行人图像或行人视频帧图像属于该行人类别,且只在单个摄像机出现;若行人组的置信度不小于置信度阈值,同时该行人组的行人类别不属于单个摄像机独有,则该行人组所在的行人图像或行人视频帧图像属于该行人类别,且其来源于不同摄像机;若行人组的置信度小于置信度阈值,表示该行人图像属于新的行人类别。