1.一种基于时空双流特征融合的动态手语识别方法,其特征在于:包括如下步骤:
1)从手语视频数据集中获取手语视频,将所有手语视频划分为训练集和测试集,之后将每个手语视频进行预处理获得图像序列;
2)构建用于动态手语识别的神经网络模型,神经网络模型包括五个时间卷积模块、六个空间卷积模块、一个池化模块、一个多维整合模块和两个平均池化层;
3)将训练集输入步骤2)构建的神经网络模型中进行训练;
4)将待识别的手语视频进行预处理获得图像序列,之后输入训练好的神经网络模型进行手语识别,并输出分类识别结果。
2.根据权利要求1所述的基于时空双流特征融合的动态手语识别方法,其特征在于:所述预处理过程具体为:对手语视频进行抽帧并压缩图像高宽,以稀疏采样的策略从抽帧后得到的图像序列中选取16帧,并按时间顺序堆叠后进行随机裁剪,将裁剪后的图像序列分离RGB三通道,并进行归一化处理;
对于同一序列的图像,应用同一裁剪标准:以图像中心256×256为裁剪范围,随机截取大小为裁剪范围0.85~1倍、高宽比为裁剪范围0.85~1.2倍的图像,并将截取后的图像缩放至224×224。
3.根据权利要求1所述的基于时空双流特征融合的动态手语识别方法,其特征在于:所述步骤2)的神经网络模型结构具体为:五个时间卷积模块依次连接,第一时间卷积模块和第二时间卷积模块之间连接有池化模块,第五时间卷积模块的输出经平均池化层后获得第五阶时间特征向量;
第一空间卷积模块的输入连接至第一时间卷积模块的输出,第二空间卷积模块的输入连接至池化模块的输出,第三空间卷积模块的输入连接至第二时间卷积模块的输出,第四空间卷积模块的输入连接至第三时间卷积模块的输出;第一空间卷积模块、第二空间卷积模块、第三空间卷积模块和第四空间卷积模块的输出在通道维度上拼接后输入多维整合模块,获得整合后的空间特征向量;整合后的空间特征向量依次经第五空间卷积模块、第六空间卷积模块、平均池化层后获得第六阶空间特征向量;
将第六阶空间特征向量和第五阶时间特征向量在通道维度上拼接后输入softmax分类器中,softmax分类器的分类结果为模型的最终输出。
4.根据权利要求3所述的基于时空双流特征融合的动态手语识别方法,其特征在于:第一时间卷积模块由一个三维卷积层、一个归一化层和一个ReLU激活函数顺次连接组成,其中的三维卷积层的卷积核大小为1×7×7,步长为(1,2,2),填充为(0,3,3);
第二时间卷积模块、第三时间卷积模块、第四时间卷积模块、第五时间卷积模块分别由深度为3的三维卷积模块、深度为4的三维下采样卷积模块、深度为6的三维下采样卷积模块、深度为3的三维下采样卷积模块组成;
第一空间卷积模块由一个三维卷积层,一个归一化层和一个ReLU激活函数顺次连接组成,其中的三维卷积层的卷积核大小为3×7×7,步长为(2,4,4),填充为(1,2,2)的三维卷积层;
第二空间卷积模块、第三空间卷积模块、第四空间卷积模块、第五空间卷积模块、第六空间卷积模块分别由深度为3的三维下采样卷积模块、深度为4的三维下采样卷积模块、深度为6的三维卷积模块、深度为2的三维下采样卷积模块、深度为2的三维下采样卷积模块组成;
池化模块为一个卷积核大小为1×3×3,步长为(1,2,2),填充为(0,1,1)的三维最大池化层。
5.根据权利要求4所述的基于时空双流特征融合的动态手语识别方法,其特征在于:深度为N的三维卷积模块由N个相同的瓶颈块顺次连接组成;
深度为N的三维下采样卷积模块由一个下采样瓶颈块和N‑1个相同的瓶颈块顺次连接组成;
N表示阿拉伯数字。
6.根据权利要求5所述的基于时空双流特征融合的动态手语识别方法,其特征在于:瓶颈块由三个顺次连接的卷积块组成,通过引入残差连接使瓶颈块的初始输入和最后一个卷积块的输出在高宽维度上相加,作为瓶颈块的最终输出;
每个卷积块均由一个三维卷积层、一个归一化层、一个ReLU激活函数顺次连接组成;第一个和第三个卷积块中的三维卷积层的卷积核大小为1×1×1,步长为(1,1,1),第二个卷积块中的三维卷积层的卷积核大小为1×3×3,步长为(1,1,1),填充为(0,1,1),分组数为输入通道数。
7.根据权利要求5所述的基于时空双流特征融合的动态手语识别方法,其特征在于:下采样瓶颈块由三个顺次连接的的卷积块和并联的三维卷积层组成,下采样瓶颈块的输入经并联的三维卷积层的输出与第三个卷积块的输出相加,作为下采样瓶颈块的最终输出;
每个卷积块由一个三维卷积层、一个归一化层和一个ReLU激活函数顺次连接组成;第一个和第三个卷积块中的三维卷积层的卷积核大小为1×1×1,步长为(1,1,1),第二个卷积块中的三维卷积层的卷积核大小为1×3×3,步长为(1,2,2),填充为(0,1,1),分组数为输入通道数;并联的三维卷积层的卷积核大小为1×1×1,步长为(1,2,2)。
8.根据权利要求3所述的基于时空双流特征融合的动态手语识别方法,其特征在于:多维整合模块包括三个并联的通道甲、通道乙和通道丙,通道甲和通道乙的输出均连接至第一个矩阵乘法层,第一个矩阵乘法层和通道丙的输出连接至第二个矩阵乘法层,第二个矩阵乘法层最后顺次连接一个变形层;
每个通道均由一个卷积核大小为1×1的三维卷积层和一个变形层顺次连接组成。
9.根据权利要求8所述的基于时空双流特征融合的动态手语识别方法,其特征在于:多维整合模块的结构具体为:将多维整合模块的输入用字母x表示,其通道、时间、高度和宽度维度用公式C×T×W×H表示;
先将向量x输入三维卷积层甲,获得维度为 的向量,再将其维度变形为用字母表示为a;
其次将向量x输入三维卷积层乙,获得维度为 的向量,再将其维度变形为 用字母表示为b;
然后将向量x输入1×1三维卷积层丙,获得维度为C×T×W×H的向量。再将其维度变形为CT×HW,用字母表示为d;
之后将向量a和b进行矩阵相乘,获得维度为CT×CT的向量,用字母表示为c;将向量c和d进行矩阵相乘,获得维度为CT×HW的向量;
最后将维度为CT×HW的向量进行变形操作后转换为维度为C×T×W×H的整合后的空间特征向量。