利索能及
我要发布
收藏
专利号: 202110488919X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于改进型SSD网络的行人目标检测与重识别方法,利用获得的目标检测与重识别系统,对目标场景下的各个待识别视频进行目标检测与重识别,其特征在于,构建两个目标场景下历史时间周期内的两个视频数据集、以及对应的两个改进型SSD网络,所述两个视频数据集包括第一视频数据集、第二视频数据集,视频数据集对应的改进型SSD网络包括第一网络、第二网络,执行以下步骤:

步骤A、针对两个目标场景下历史时间周期内的两个视频集,对视频集中的各个视频转换为有效视频帧图像序列,并对序列中的每一幅图像进行标注处理,构成每个视频集对应的视频数据集,所述视频数据集包括训练集和验证集,随后进入步骤B;

步骤B、分别针对两个视频数据集,构建与视频数据集对应的SSD网络,获得改进型SSD网络,即获得两个视频数据集分别对应的改进型SSD网络,随后进入步骤C;

步骤C、分别针对两个改进型SSD网络,利用对应视频数据集中的有效视频帧图像对该改进型SSD网络进行训练,训练好的两个改进型SSD网络构成目标检测与重识别系统;

步骤D、针对各个待识别视频,基于目标检测与重识别系统,以待识别视频的有效视频帧图像为输入,以待识别视频内行人预测结果、以及待识别视频对应的视频帧图像位置标注为输出,获得行人的目标检测与重识别结果。

2.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤A包括以下步骤:

步骤A1、针对两个目标场景下历史事件周期内的两个视频集,将视频集中的各个视频转换为有效视频帧图像序列,针对有效视频帧图像序列中的各个帧图像,标注行人整体和行人部件的目标检测边界框的位置和大小,并进一步对各个有效视频帧图像的目标检测边界框中的行人类别、以及行人部件类别进行标注,其中,行人类别表示对应的行人,行人部件类别包括行人整体、头部、上半身、以及下半身,随后进入步骤A2;

步骤A2、基于有效视频帧图像序列,计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至视频集中,随后进入步骤A3;

步骤A3、针对不同目标场景的摄像机,采用步骤A1和步骤A2处理得到的视频数据集,将每个视频数据集中的视频分为训练集和验证集。

3.根据权利要求2所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤A1中,将视频集中的每幅视频帧图像保持宽高比缩放至257个像素,随后将缩放后的视频帧图像居中放置到大小为257*257的黑底图像中,获得每幅视频帧图像对应有效视频帧图像,进一步得到有效视频帧图像序列;

所述步骤A2中,使用Lucas‑Kanade算法计算相邻两帧图像之间的光流轨迹图。

4.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤B中的改进型SSD网络包括基础网络层、多尺度网络层、定位子网络、行人部件识别子网络、行人重识别子网络、非极大值抑制模块、以及预测结果融合模块,构建与视频数据集对应的改进型SSD网络,包括以下步骤:步骤B1、更换SSD网络基础网络层中的五个卷积模块,更换后基础网络层的结构依次为:输入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块,并将原基础网络层中五个卷积模块的输出,分别更换为对应的第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、第五卷积模块的输出;

步骤B2、更换SSD网络中多尺度网络层中的卷积模块,对第四卷积模块的输出进行归一化操作,作为多尺度网络层第一尺度的输出,将多尺度网络层中的最后四个卷积模块更换为四个残差模块,并相应将最后四个卷积模块的输出分别更换为残差模块的输出,对残差模块的输出、以及未更换的卷积模块中每一个卷积层的输出进行归一化操作;

步骤B3、将SSD网络中的目标检测模块设置为定位子网络,用于生成预测边界框;

将识别模块设置为行人部件识别子网络,用于识别预测边界框标识区域的行人部件类别;

在SSD网络中增加一个与定位子网络和行人部件识别子网络并行的,用于识别预测边界框标识区域内行人类别的行人重识别子网络,预测边界框的生成与行人部件识别、行人重识别同时进行,所述行人重识别子网络包括,根据步骤A中预处理后的视频帧图像标注的行人类别划分的共有识别模块、以及独有识别模块;

所述共有识别模块,用于对两个视频集中共有的行人类别进行识别,所述独有识别模块,用于对只存在于其中一个视频集中的行人类别进行识别;

对所述定位子网络、所述行人部件识别子网络、以及所述行人重识别子网络中的每一个卷积层的输出进行归一化操作;

步骤B4、通过标签平滑正则化方法优化行人部件类别和行人类别的概率分布;

步骤B5、更换SSD网络中误差函数的识别误差值,将识别误差值由一组标记的分类误差更换为行人部件类别识别误差值与行人类别识别误差值之和,在所有有效视频帧图像通过非极大值抑制模块完成非极大值抑制后,通过预测结果融合模块,将同一个行人的整体和部件的位置、大小、以及相应的类别信息进行筛选融合。

5.根据权利要求4所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,当视频集中所有有效视频帧图像完成非极大值抑制的筛选后,对预测边界框中标注的图像进行识别预测,具体包括:

首先,筛选出行人部件识别子网络识别的各个行人整体预测边界框,以及包含在行人整体预测边界框中的非行人整体预测边界框,构成行人组,每一个预测边界框中包括行人类别和行人部件类别;

其次,针对各个行人组,按照行人重识别子网络识别的行人类别,对各个行人组中的各个预测边界框进行分组,将相同的行人类别划分至相同子组中,计算每个子组的置信度,所述置信度=平均置信度*预测边界框个数占比,其中,预测边界框个数占比为子组预测边界框个数与行人组预测边界框个数之比;

最后,筛选出各个行人组内置信度最高的子组,将该子组的置信度、行人类别作为该行人组的置信度和行人类别,将行人组内行人整体预测边界框的预测结果作为该行人组的定位结果,输出各个行人组的定位结果、行人类别、以及置信度。

6.根据权利要求1‑4任意一项所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤C中分别针对两个改进型SSD网络执行以下步骤:步骤C1、对第一网络进行初始化,用视频集A对应的视频数据集对第一网络进行训练,完成训练后,将第一网络中的除独有识别模块之外的网络参数传递至视频集B对应的第二网络中;

第二网络接收第一网络传递的网络参数,利用网络参数初始化第二网络中对应的网络模块,对第二网络中的独有识别模块进行随机初始化,利用第二网络对应的视频数据集对第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递至第一网络中;

第一网络接收第二网络传递的网络参数,并替换第一网络中对应模块的参数;

步骤C2、分别针对第一网络、以及第二网络,保持各个网络中的共有识别模块的网络参数固定不变,使用第一网络对应的第一视频数据集对第一网络进行训练,使用第二网络对应的第二视频数据集对第二网络进行训练,当两个网络在训练过程中的误差函数值均收敛,结束训练,否则执行步骤C3;

步骤C3、保持第一网络中除共有识别模块之外的参数不变,利用第一视频数据集对该第一网络进行训练,完成训练后,将第一网络中共有识别模块的网络参数传递至第二网络中;

第二网络接收第一网络传递的网络参数,并对当前第二网络中的共有识别模块的参数进行替换,保持第二网络中除共有识别模块之外的参数不变,利用第二网络对应的视频数据集对该第二网络进行训练,完成训练后,将第二网络中共有识别模块的网络参数传递给第一网络;

第一网络接收第二网络传递的网络参数,并利用第二网络传递的网络参数更新相应网络模块,进入步骤C4;

步骤C4、第一网络和第二网络在步骤C3的训练过程中的误差函数值均收敛,则返回步骤C2,否则,任一网络的误差函数值不收敛,返回步骤C3。

7.根据权利要求1所述的基于改进型SSD网络的行人目标检测与重识别方法,其特征在于,所述步骤D具体包括以下步骤:

步骤D1、将待识别的视频以有效视频帧图像序列的形式,逐帧输入至目标检测与重识别系统中,根据步骤A1中的方法得到有效视频帧图像序列;

步骤D2、计算序列中相邻两幅帧图像之间的光流轨迹图,并将光流轨迹图保存至待识别的视频中;

步骤D3、通过待识别视频中的目标场景,判断待识别视频的来源,选择与来源对应的目标网络,将待识别视频输入至目标网络,获得目标网络的预测结果;

步骤D4、结合行人组的置信度、以及行人类别,判断每一帧有效视频帧图像的行人类别,即获得待识别视频的识别结果。