利索能及
我要发布
收藏
专利号: 2021111138250
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DAMR_3DNet的动作识别方法,其特征在于,包括下列步骤:步骤1)读取动作数据集中各类别的动作视频,并获取各个动作视频的类别标签,对每个动作视频进行预处理得到视频帧序列,将视频帧序列作为训练数据集,训练数据集包括训练集和测试集;

步骤2)构建DAMR_3Dnet模型:DAMR_3Dnet模型包括依次连接的D‑3Dnet模块、注意力机制模块和3D Residual模块;

2.1)将视频帧序列输入D‑3Dnet模块中提取动作视频的低层时空特征信息;

2.2)D‑3DNet提取的低层时空特征信息输入注意力机制模块中提取具有通道间信息以及空间信息的注意力特征图;

2.3)将步骤2.2)提取的注意力特征图作为3D Residual Module的输入进一步提取高层时空特征;

2.4)3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,最后通过SoftMax分类器进行动作分类,得到分类的结果;

步骤3)训练数据集输入步骤2)构建的DAMR_3Dnet模型进行训练;

步骤4)待分类的动作视频输入DAMR_3Dnet模型中进行动作分类识别,得到分类结果。

2.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤

1)中的预处理具体为:

1.1)通过openCv中的cv2.CAP_PROP_FRAME_COUNT方法依次获取每个动作视频的所有帧数;

1.2)采用稀疏采样的方法依次对每个类别的每个动作视频提取指定帧数的视频帧序列;

1.3)对提取的视频帧序列中的每个视频帧进行尺寸归一化处理。

3.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤

2.1)具体为:

2.1.1)D‑3Dnet模块的输入为视频帧序列,视频帧序列经第一卷积层后得到提取后的特征图;

2.1.2)将步骤2.1.1)卷积后提取的特征图输入第一最大池化层,对经过第一池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;

2.1.3)将步骤2.1.2)融合后的特征图输入第二最大池化层,对经过第二池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;

2.1.4)将步骤2.1.3)融合后的特征图输入第三最大池化层,对经过第三池化层的特征图采用解耦合卷积操作后分别得到空间特征和时间特征,通过Add操作融合空间特征和时间特征;

2.1.5)将步骤2.1.4)融合后的特征图输入第四最大池化层,对经过第四池化层后的特征图使用3×3×3的卷积核进行卷积操作;

2.1.6)将步骤2.1.5)卷积得到的特征图输入第五最大池化层,得到降采样后的特征图为D‑3DNet模块的输出特征。

4.根据权利要求3所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述解耦合卷积操作为将特征图分别经过3×3×1的空间维度卷积和1×1×3的时间维度卷积后得到空间特征和时间特征。

5.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤

2.2)具体为:

2.2.1)注意力机制模块以D‑3Dnet模块的输出特征F作为输入,分别经过MaxPool3D操作以及AvgPool3D操作,得到两个包含通道描述信息的特征图Fc(max)和特征图Fc(avg),对两个特征图使用Add操作融合得到特征图Fc(Add);

2.2.2)将特征图Fc(Add)输入一个两层的神经网络中,两层的神经网络采用带有一个隐藏层的多层感知机然后将多层感知机单元输出的特征经过sigmoid激活操作,生成通道注意力特征图Mc(F),从而得到通道注意力权重矩阵;

2.2.3)将通道注意力特征图Mc(F)和输入注意力机制模块的特征图F进行Multiply操作得到具有通道注意力信息的输出特征图F′;

2.2.4)将步骤2.2.3)得到的通道注意力特征图F′输入3D卷积层,经过3D卷积操作后进一步提取含有注意力信息的时空特征F′(conv);

2.2.5)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后提取的特征图经过sigmoid操作生成注意力权重系数矩阵Ms(F′);

2.2.6)将步骤2.2.4)得到特征图F′(conv)输入3D卷积层,经过3D卷积操作后得到的特征图与步骤2.2.5)得到的注意力权重系数矩阵Ms(F′)相乘,生成注意力特征图F″;

2.2.7)将步骤2.2.6)得到的注意力特征图F″输入3D卷积层,并且引入一个残差连接,将经过3D卷积操作后输出的特征图与步骤2.2.4)提取的特征图F′(conu)做Add融合操作,得到注意力机制模块的输出特征图F(attention)。

6.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤

2.3)具体为:注意力机制模块的输出特征作为3D Residual Module的输入,3D Residual Module包含两个残差模块:

2.3.1)在第一残差模块中,将输入的特征图经过两层3D卷积层提取高层时空特征,并且将得到的高层时空特征与第一残差模块输入的特征进行Add操作得到第一残差模块的输出;

2.3.2)在第二残差模块中,以第一残差模块的输出作为输入,输入的特征图经过两层三维卷积层后进一步提取高层时空特征,与第二残差模块输入的特征进行Add操作得到第二残差模块的输出。

7.根据权利要求1所述的一种基于DAMR_3DNet的动作识别方法,其特征在于:所述步骤

2.4)具体为:

3D Residual Module提取的高层时空特征经Flatten操作将多维特征进行一维化,之后经过三个全连接层,最后一层全连接层的神经元个数为动作类别的个数,具体采用SoftMax分类器进行动作分类,最后得到DAMR_3DNet模型的动作分类结果。