1.一种基于P2CS_3DNet网络的行为识别方法,其特征在于,包括下列步骤:
步骤1)将包含动作的视频数据集分为训练集、测试集和验证集,读取训练集中各个视频的动作,并获得每个视频的动作对应的行为标签;
步骤2)通过等差采样的方式对每个视频进行视频帧的提取,对提取的视频帧进行尺寸归一化处理;
步骤3)将步骤2)提取的视频帧输入P2CS_3DNet网络进行视频的行为识别,P2CS_3DNet网络包括P2C_1Net模块、P2C_2Net模块和CSENet注意力模块;
步骤3.1)将步骤2)提取的视频帧先输入P2C_1Net模块进行视频动作的低层特征提取,有效提取并加强时间信息;
所述步骤3.1)具体为:P2C_1Net网络基于P3D Module构建,P2C_1Net网络包括第一时间卷积、第一空间卷积、卷积核个数为64的3×1×1的第二时间卷积、1×3×3的第二空间卷积、第一最大池化层;输入P2C_1Net网络的视频帧分别输入第一时间卷积和第一空间卷积,第一时间卷积的输出经CBAM注意力机制输出时间特征,第一空间卷积输出空间特征,时间特征和时间特征经Add操作融合后依次输入第二时间卷积、第二空间卷积、第一最大池化层;最后通过残差模块将输入P2C_1Net网络的视频特征和第一最大池化层压缩后的特征进行融合,完成低层特征提取;
步骤3.2)将步骤3.1)提取的低层特征输入P2C_2Net模块中进行视频动作的高层特征提取,有效提取并加强空间信息;
所述步骤3.2)具体为:P2C_2Net网络基于P3D Module构建,P2C_2Net网络包括第三空间卷积、第三时间卷积、第四空间卷积和第四时间卷积、最大池化层;步骤3.1)提取的低层特征分别输入第三空间卷积和第三时间卷积,第三空间卷积的输出经CBAM注意力机制输出空间特征,第三时间卷积输出时间特征,通过Add操作将时间特征和空间特征融合后依次输出第四空间卷积、第四时间卷积、第二最大池化层;最后通过残差模块将步骤3.1)提取的低层特征和经第二最大池化层压缩后特征进行融合,完成高层特征的提取;
步骤3.3)将步骤3.2)提取的特征输入CSENet注意力模块完成特征压缩和特征激励的同时对特征进行逐步卷积,完成对局部特征的关注;
所述步骤3.3)具体为:CSENet注意力模型基于SENet构建,CSENet注意力模型包括两路分支,第一路分支包括依次连接的全局最大池化、1×1×1的卷积、全连接层,第二路分支包括依次连接的全局平均池化、1×1×1的卷积、全连接层;将步骤3.2)提取的高层特征分别输入第一路分支和第二路分支,分别经第一路分支和第二路分支的全局最大池化和全局平均池化进行特征压缩,再经1×1×1的卷积实现局部特征提取,之后通过全连接层实现全局提取特征;使用Multiply将第一路分支和第二路分支输出的特征相乘融合,最后通过残差模块将相乘融合后的特征和步骤3.2)提取的高层特征进行融合,完成局部特征信息的提取;
步骤3.4)最后通过残差模块将步骤2)提取的视频特征和步骤3.3)输出的特征信息进行融合,融合后的特征经输出层输出后,得到视频的动作分类结果。
2.根据权利要求1所述的一种基于P2CS_3DNet网络的行为识别方法,其特征在于:所述步骤2)具体为:步骤2.1)通过Opencv读取每个视频的视频帧数;
步骤2.2)通过等差选取的方式选取指定参数的视频帧;
步骤2.3)对选取的视频帧进行尺寸归一化处理。
3.根据权利要求1所述的一种基于P2CS_3DNet网络的行为识别方法,其特征在于:所述步骤3.4)的输出层包括三层Dense层,第三Dense层的神经元个数为视频动作的类别数。