1.一种基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于,包括:
步骤1) 将带有动作类别标签的若干动作类别的动作视频进行预处理后构成动作训练集;
步骤2) 建立多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet,将动作训练集输入多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中进行训练,获得训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet;
a) 所述MSA_(2+1)DNet包括依次连接的(2+1)D stem引导模块、(2+1)D注意力模块组、全局平均池化层、向量一维化操作Flatten操作、全连接层FC和Softmax分类器;
b) 所述(2+1)D注意力模块组包括四个注意力机制模块和四个(2+1)D Residual残差模块,所述注意力机制模块与残差模块相互交错并依次连接,且第一个模块为注意力机制模块;
c) 所述注意力机制模块包括切割块patch_embedding操作、第一向量相加Add操作、时空编码生成操作、神经元随机失活Dropout操作、第二MLP、第三MLP、第四MLP、第一矩阵乘法Multiply操作、指数函数softmax归一化操作、向量除法Divide操作、第二矩阵乘法Multiply操作、上采样操作和第二向量相加Add操作;
d) 所述注意力机制模块的输入首先进行切割块patch_embedding操作后获得特征图,特征图经过时空编码生成操作后获得特征图的可学习参数,可学习参数和特征图共同进行第一向量相加Add操作后再进行神经元随机失活Dropout操作,然后分别输入至第二MLP、第三MLP和第四MLP中进行处理,第二MLP和第三MLP处理的输出依次经第一矩阵乘法Multiply操作、指数函数softmax归一化操作和向量除法Divide操作后的输出再与第四MLP的输出共同经第二矩阵乘法Multiply操作,操作后的输出进行上采样操作,操作后再和注意力机制模块的输入共同经过第二向量相加Add操作后输出作为注意力机制模块的输出;
步骤3) 采集待检测的动作视频并输入至训练完成的多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet中,多尺度自注意力机制的解耦的3D网络MSA_(2+1)DNet输出待检测的动作视频的动作类别,完成动作识别。
2.根据权利要求1所述基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述的步骤1)中,将带有动作类别标签的若干动作类别的动作视频进行预处理,针对每个带有动作类别标签的动作视频,将动作视频的各个视频帧首先采用稀疏采样方法提取预设帧数的视频帧序列,然后将提取出的视频帧序列中的每个视频帧进行尺寸归一化处理,最终将预处理后的各个动作视频构成动作训练集。
3.根据权利要求1所述基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述切割块patch_embedding操作包括依次连接的第一三维卷积层Conv3d、特征图形状重塑Rearrange操作和第一MLP。
4.根据权利要求1所述基于多尺度自注意力机制的解耦的3D网络的动作识别方法,其特征在于:所述上采样操作包括第五MLP、第二特征图形状重塑Rearrange操作和第二三维卷积层Conv3d。