1.一种基于骨架关节点序列的交警指挥手势识别方法,其特征在于,包括以下步骤:(1)采集不同视角、不同场景及不同速度下交警指挥手势的视频片段;
(2)基于改进的目标检测算法检测出含有交警的图像,输出包含交警的目标框与坐标信息的多帧交警指挥动作图像;
(3)通过姿态估计算法提取交警关节点信息,按时间顺序组合形成关节点序列;
(4)使用时空图卷积模型对得到的交警指挥交通时的身体关节点序列进行处理,从而识别交警指挥手势动作类别;
所述改进的目标检测算法有如下改进:
在检测层添加75×75高分辨率低语义信息特征图;
将从卷积层提取的Conv4_3和Conv7的特征图做转置卷积,即将输入特征图与输出特征图位置进行互换;
调整低分辨率特征图的分辨率使其与高分辨率特征图的分辨率一致;
将高语义信息特征图与低语义信息特征图拼接成多通道特征图;
利用多通道卷积对经拼接而成的多通道特征图提取特征,实现特征融合;
所述步骤(3)包括以下步骤:
(31)将大小为w*h的多帧交警指挥动作图像作为输入;
(32)图像被一个卷积神经网络处理后生成特征图集F;
(33)网络分为两个循环分支Branch1和Branch2,一个分支用于预测交警部位位置的二维置信度图S,进行交警身体部位定位得到交警身体部位的关节点,另一个分支用于预测像素点从骨架到肢体走向的关节点关联图,这是一个二维矢量场L,称为人体关键点亲和场;
1
(34)第一个阶段以特征图F作为输入,得到一组交警部位位置的二维置信度图S 和关节1
点关联图L;
t‑1 t‑1
(35)后续的阶段分别以上一个阶段两分支的输出S ,L 和特征图F融合作为输入,不t断进行迭代直至准确率的提升值小于或等于预设值,结束训练,经过t个阶段最终输出S 和tL;
(36)计算S,L的预测值与ground truth(S*,L*)之间的L2范数,S和L的groundtruth从标注的关节点生成,如果某个关节点标注缺失则不计算该点的值;
(37)计算每帧图像中交警18个关节点的坐标位置信息,并将一个骨架帧记录为一个由
18个元祖组成的数组,最终输出所有关节点按时间顺序组合得到的连续关节点序列;
所述步骤(4)包括以下步骤:
(41)将步骤(3)得到的交警关节点序列作为输入利用给定的2D坐标系下的交警身体关节位置的时间序列,构造时空图,利用时空图来形成骨架序列的层次表示:在N个节点和T帧的骨架序列上构造了一个无向空间时间图G=(V,E),该序列具有体内连接和帧间连接,其中,V表示节点集,E表示边集;V={Vti|t=1,…T,i=1,…,N},包含了骨架序列中所有的节点;边集E是由两个子集组成的,第一个子集是每一帧内的骨架连接,表示为ES={VtiVtj|(i,j)∈H},H表示自然连接的人体关节集合;第二个子集是帧间关节连接,它们将连续帧中相同的节点连接为EF={VtiV(t+1)i},i,j分别是关节点集合中的两个任意关节;EF中每一个边代表一个特定的关节i随时间变化的轨迹;
(42)对时空图中的关节坐标向量应用多层的时空图卷积操作,生成更高级别的特征图:确定一个关节点为卷积中心,在空间维度上,取与之相邻的点,作为需要参与卷积的点;
在时间维度上,取前后帧在相同位置的点,作为需要参与卷积的点;确定了卷积中心和需要参与卷积的点,进行卷积,聚合时间维度和空间维度上的信息;时空图卷积网络模型的每一层的特征图结构都一致,中间没有加入池化层,在最后一层卷积层之后采用了全局平均池化的策略,将每一个通道收缩为一个点,之后采用全连接层进行交警指挥手势的分类;
(43)利用标准的softmax分类器分类到相应的交警手势动作类别。
2.根据权利要求1所述的一种基于骨架关节点序列的交警指挥手势识别方法,其特征在于,步骤(32)所述的卷积神经网络是由VGG‑19前10层加2层CNN组成。
3.根据权利要求1所述的一种基于骨架关节点序列的交警指挥手势识别方法,其特征在于,步骤(37)所述的交警18个关节点为鼻子、脖子、右肩、右肘、右手腕、左肩、左肘、左手腕、右臀、右膝盖、右脚踝、左臀、左膝盖、左脚踝、右眼、左眼、右耳朵及左耳朵。