1.一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:包括如下步骤:
S1、根据人的手势交流习惯和人机交互中用户常输入的指令,定义向左、向右、向上、向下、确认、取消六种动态手势和一个无手势类别,并根据UCF101数据集格式录制手势视频数据集,配置标签文件,作为神经网络的训练数据集和测试输入;
S2、根据手势视频数据集具有的时间特征和空间特征,搭建双帧速率分治行为识别网络,双帧速率分治行为识别网络包含高帧速通道和低帧速通道,所述高帧速通道和低帧速通道采用一种由无ReLU的残差块、预激活残差块和与激活层加BN层结构的3D‑IResnet50网络作为主干网络;
S3、根据步骤S2中高帧速通道和低帧速通道的无ReLU的残差块后加入CBAM注意力机制,CBAM注意力机制对从卷积神经网络输出的特征通道数、特征的宽、高和帧数均进行权重分配,输出带有权重的特征并输入到下一个无ReLU的残差块;
S4、在Ubuntu18.04操作系统上配置conda虚拟环境,使用pytorch深度学习框架,搭建双帧速率分治行为识别网络并训练采集的手势视频数据集,对训练好的模型输入手势视频数据,根据输出结果判断手势种类。
2.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S1中六种动态手势视频均在不同光照环境、不同摄像头视角、不同录制者情况下采集120‑150个,且手势视频数据集采用30帧录制,视频分辨率480×480,每个视频从手势的第一帧开始,到最后一帧结束进行剪辑。
3.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S2中高帧速通道输入低分辨率高帧数视频数据,低帧速通道输入高分辨率低帧数数据,在高帧速通道和低帧速通道之间使用侧向连接层进行高帧速通道和低帧速通道交互,实现时空特征信息融合。
4.根据权利要求3所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述低帧速通道输入视频长度为:L=T×τ,
其中T为低帧速通道输入的采集帧数,τ为低帧速通道采集的帧间间隔。
5.根据权利要求4所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述高帧速通道输入视频的高帧率采样且采样频率为低帧速通道输入视频采样频率的α倍,α=8,高帧速通道采集的帧间间隔为τ/α,高帧速通道的3D‑IResnet50网络输入输出特征通道数为低帧速通道的β倍,β=1/8。
6.根据权利要求5所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S2中高帧速通道和低帧速通道均分为4个残差块,每个残差块由start block、middle block和end block构成,start block、middle block均在网络的主干通路上移除了ReLU激活函数,保留了负权值信息;end block在主干通路上添加了BN层,减少极端数值对特征提取的影响,在高帧速通道的每个主要残差块结束时使用一次三维卷积侧向连接到低帧速通道,完成时间特征和空间特征的融合,最后由低帧速通道连接一个全连接层和BN层输出预测结果。
7.根据权利要求6所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S3中CBAM注意力机制将高帧速通道和低帧速通道的残差块输出的手C×H×W×D C×1×1×1
势特征T∈R 再次推理,分别输出一维的通道维度(C)上的权重向量Wc∈R 和三
1×H×W×D
维的空间维度(H,W,D)上的权重矩阵WS∈R ,经过CBAM注意力机制的计算过程如下:T″为经过注意力机制分配权重后输出的手势特征,其中 为元素依次相乘运算符,根据以上公式得出CBAM注意力机制分为两个阶段:一是对输入特征的通道计算权重向量,则需要压缩空间维度到1×1×1,使用最大池化和平均池化在三个空间维度上进行压缩,分别得到最大池化空间描述 和平均池化空间描述 然后使用多层感知机网络对两个C×1×1×1
空间描述向量进行计算得到Wc∈R :其中,σ为sigmoid函数,
第二是对输入特征的空间维度计算权重矩阵,使用最大池化和平均池化得到空间信息的两个不同的特征描述 和 最后使用三维卷积操作生成空间注意力矩阵:其中c为三维卷积操作,σ为sigmoid函数。
8.根据权利要求1所述的一种基于双帧速率分治行为识别网络的动态手势识别方法,其特征在于:所述步骤S4中手势视频数据集划分按照3∶1∶1为训练集、验证集和测试集,设置训练周期数,保留验证准确率最好的模型作为最终手势识别模型,通过摄像头输入手势视频数据得到模型的推理结果,将置信度最高的手势编号作为识别结果。