1.一种基于改进型VGG16网络的人群计数方法,其特征在于,包括:
采集监控场景的实时人群图像;将实时人群图像输入预训练后的人群计数网络模型,获得对实时人群图像的计数结果;
所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;
所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;
所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;
所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;
所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;
所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
所述人群计数网络模型的训练过程包括:
由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
通过训练集和验证集对人群计数网络模型进行训练;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
2.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,构建训练集、验证集及测试集的方法包括:对人群图像缩放至设定尺寸,根据人群数量将人群图像划分为C个类别;将每个类别中的人群图像按照设定比例依次划分至训练集、验证集及测试集。
3.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述特征提取层依次包括Conv1_1卷积层、Conv1_2卷积层、Pool1最大池化层、Conv2_1卷积层、Conv2_2卷积层、Pool2最大池化层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Pool3最大池化层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Pool4最大池化层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层;
Conv1_1卷积层、Conv1_2卷积层、Conv2_1卷积层、Conv2_2卷积层、Conv3_1卷积层、Conv3_2卷积层、Conv3_3卷积层、Conv4_1卷积层、Conv4_2卷积层、Conv4_3卷积层、Conv5_1卷积层、Conv5_2卷积层、Conv5_3卷积层的卷积核都为3,其通道数分别为64、64、128、128、
256、256、256、512、512、512、512、512、512;
Pool1最大池化层、Pool2最大池化层、Pool3最大池化层和Pool4最大池化层的步长为2以及池化区域为2,特征图P1表示为经过Conv3_3卷积层和Pool3最大池化层的特征图,特征图P2表示经过Conv4_3卷积层和Pool4最大池化层的特征图,特征图P3表示经过Conv5_3卷积层的特征图。
4.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多层语义融合模块包括注意力机制;所述特征图P1通过注意力机制进行特征提取后形成特征图Y1;所述特征图P2通过注意力机制进行特征提取后,使用双线性插值的方式上采样2倍获得特征图Y2;所述特征图P3通过注意力机制进行特征提取后,使用双线性插值的方式上采样4倍获得特征图Y3;所述特征图Y1、特征图Y2和特征图Y3在通道维度上拼接形成特征图R。
5.根据权利要求4所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多层语义融合模块对所述特征图P1、特征图P2和特征图P3分别经过注意力机制的初次特征提取的方法包括:将所述特征图P1、特征图P2和特征图P3作为输入特征图输入所述注意力机制;对所述输入特征图分别进行通道维度最大池化和通道维度平均池化后进行拼接,然后经过7×7卷积和sigmoid激活函数处理得到注意力特征图;将注意力特征图与输入特征图相乘形成设定尺寸的输出特征图。
6.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述多尺度膨胀卷积模块对特征图R进行特征以及上下文信息提取形成特征图Z的方法包括:所述多尺度膨胀卷积模块先将特征图R按通道维度平均分成第一子特征图R1、第二子特征图R2、第三子特征图R3和第四子特征图R4;对第一子特征图R1进行膨胀率为1的膨胀卷积获得特征图A1;对第二子特征图R2进行膨胀率为2的膨胀卷积获得特征图A2;对第三子特征图R3进行膨胀率为3的膨胀卷积获得特征图A3;对第四子特征图R4进行膨胀率为4的膨胀卷积获得特征图A4;
将所述特征图A1与特征图A2在通道维度上拼接后进行卷积核为3的卷积获得新特征图B2;将所述新特征图B2与特征图A3在通道维度上拼接后进行卷积核为3的卷积获得新特征图B3;将所述新特征图B3与特征图A4在通道维度上拼接后进行卷积核为3的卷积获得新特征图B4;
将特征图A1、新特征图B2、新特征图B3和新特征图B4在通道维度上拼接后进行卷积核为3的卷积获得特征图Z。
7.根据权利要求1所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述分类分支模块依次包括全局平均池化和全连接层;所述全局平均池化将特征图的尺寸下采样为1×1,通道数设为512;全连接层的输入结点为512,全连接层的输出结点为10,最后使用Sigmoid激活函数处理获得人群数量区间。
8.根据权利要求4所述的基于改进型VGG16网络的人群计数方法,其特征在于,所述生成人群密度图像的后端网络对特征图Z进行处理获得设定尺寸的人群密度图的方法包括:对特征图Z依次进行3×3卷积、3×3卷积、双线性差值两倍上采样、3×3卷积和双线性差值两倍上采样获得设定尺寸的人群密度图。
9.一种基于改进型VGG16网络的人群计数系统,其特征在于,包括:
监测模块,用于采集监控场景的实时人群图像;将实时人群图像输入至预训练后的人群计数网络模型,获得对实时人群图像的计数结果;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;所述特征提取层为VGG16网络的前十三层;特征提取层用于提取特征图P1、特征图P2和特征图P3;所述多层语义融合模块用于利用注意力机制分别对所述特征图P1、特征图P2和特征图P3进行初次特征提取,将初次特征提取后的特征融合形成特征图R;所述多尺度膨胀卷积模块用于对特征图R进行特征以及上下文信息提取形成特征图Z;所述分类分支模块对特征图Z进行处理后,经过Sigmoid激活函数处理获得人群数量区间;所述生成人群密度图像的后端网络用于对特征图Z进行处理获得设定尺寸的人群密度图,再对人群密度图进行积分运算得到人群数量;
获取模块,用于由监控数据库中获取含有标注信息的人群图像,对人群图像进行预处理构建训练集、验证集及测试集;其中,标注信息为人群图像数据中的人群数量区间;
训练模块,通过训练集和验证集对人群计数网络模型进行训练;所述人群计数网络模型包括:特征提取层、多层语义融合模块、多尺度膨胀卷积模块、分类分支模块和生成人群密度图像的后端网络;利用L2范数损失和交叉熵损失构建损失函数;根据损失函数计算梯度并采用Adam优化器更新人群计数网络模型的权重以及偏置;
评价模块,用于通过测试集对更新的人群计数网络模型进行测试,采用平均绝对误差MAE或均方误差MSE对人群计数网络模型进行评估并获得评估值,根据评估值保存人群计数网络模型的网络参数,重复迭代直至设定的训练轮数全部完成,输出最终的人群计数网络模型。
10.计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至权利要求8任一项所述方法的步骤。