1.基于深度学习的办公场所人员行为轻量级目标检测方法,其特征在于,包括:
配置对目标场所的人员行为的检测类别及类别标签,所述目标场所的人员行为的检测类别包括:玩手机、打瞌睡、未带口罩、吃东西、工牌佩戴、手机拍摄终端屏幕、人员聚集和其他人员,其中,玩手机、打瞌睡、吃东西、工牌佩戴和手机拍摄终端屏幕的标注框数量设置为
2,未带口罩、人员聚集和其他人员的标注框数量设置为1;
设置初始目标检测网络模型,所述初始目标检测网络模型包括骨干网络、特征融合网络和预测网络;
所述骨干网络用于提取目标场所的采集图像的多尺度特征信息,并将提取的多尺度特征信息输入到特征融合网络,所述骨干网络依次包括:隔行采样拼接模块,三个带交叉卷积的单元模块,一个卷积块和空间金字塔池化SPP模块;所述带交叉卷积的单元模块包括三个部分:第一部分为一个卷积块,所述卷积块依次包括卷积层、批归一化层和激活函数层;第二部分为为一个或多个C3S模块的堆叠结构,第三部分为一个或多个残差模块的堆叠结构;
卷积块依次包括二维卷积、批量归一化和函数激活;所述C3S模块包括两个顺次连接的卷积块,其中,C3S模块的第一个卷积块的卷积层的卷积核为3×1,第二卷积块的卷积层的卷积核为1×3;且所述C3S模块的输入和输出之间存在跳跃连接;
其中,第一个带交叉卷积的单元模块包括一个C3S模块和一个残差模块,且第一个带交叉卷积的单元模块的卷积块的卷积核数量为64,卷积块的输出为64×160×160;第二和第三个带交叉卷积的单元模块相同,包括一个C3S模块和三个残差模块;第二个带交叉卷积的单元模块的卷积块的卷积核数量为128,卷积块的输出为128×80×80;第三个带交叉卷积的单元模块的卷积块的卷积核数量为256,卷积块的输出为256×40×40;接入SPP模块的卷积块的卷积核数量为512,卷积块的输出为512×20×20;
所述融合网络,基于骨干网络提取的多尺度特征信息进行组合和融合处理,输出多个尺度的融合特征图,每个尺度的融合特征图对应一种预置的锚框模式;
所述融合网络包括三条支路;
其中,
第一条支路的输入特征图为SPP模块的输出特征图,第一条支路包括顺次连接的两个带交叉卷积的单元模块和一个卷积块;
其余的两条支路的输入依次为上一条支路的最后一个带交叉卷积的单元模块的输出特征图,以及骨干网络中的对应的带交叉卷积的单元模块的输出特征图;
融合网络的第2至第3条支路的结构相同,依次包括FPN模块、卷积块、带交叉卷积的单元模块和卷积块;
其中,FPN模块包括上采样层、1×1卷积层和相加操作层,所述上采样层的输入为当前支路的上一条支路的带交叉卷积的单元模块的输出特征图,1×1卷积层的输入为骨干网络中的对应的带交叉卷积的单元模块的输出特征图,所述相加操作层用于对上采样层和1×1卷积层的输出特征图相加;
所述融合网络输出的融合特征图的尺度数与骨干网络包括的带交叉卷积的单元模块数一致,且输入到融合网络的特征图包括:SPP模块的输出特征图,以及骨干网络的最后两个带交叉卷积的单元模块的输出特征图;
且融合网络各条支路上的带交叉卷积的单元模块相同,包括两个C3S模块和一个残差模块;
所述预测网络,对每一个融合特征图,基于预置的锚框模式,预测该融合特征图中目标检测位置,以及目标类别标签;
基于采集的训练数据对初始目标检测网络模型进行网络参数学习,得到目标场所的目标检测网络模型,其中,训练数据的图片尺寸归一化为640×640,并在颜色空间和图片空间就那些数据增强。
2.如权利要求1所述的方法,其特征在于,所述初始目标检测网络模型在网络参数学习时,采用的损失函数为对象损失、分类损失和锚框损失之和。
3.如权利要求1所述的方法,其特征在于,所述SPP模块的处理为:空间金字塔池化模块的输入特征图经过1×1的卷积层,再经过并列的三个最大池化层进行下采样,将三路下采样结果与空间金字塔池化模块的输入特征图相加,再经卷积层后恢复到SPP模块的输入特征图的尺寸。
4.如权利要求1所述的方法,其特征在于,所述预测网络采用目标检测网络YOLO中的预测层。