买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多分支三维图卷积和LSTM的动作识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多分支三维图卷积和LSTM的动作识别方法

￥22200

专利号： 2025105699241

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，包括如下步骤：步骤1. 对输入的人体三维的姿态序列进行预处理，得到节点流信息数据，包括节点位置信息、节点运动速度信息以及节点运动加速度信息，并对三种信息进行融合；

步骤2. 针对相邻多帧的骨架序列，设计多分支注意力的三维图卷积MBA_3DGCN，分别针对本帧及相邻帧提供给自身节点、向内连接的节点、向外连接的节点和全部的其它节点来分别提取特征，并通过相对应的可学习的注意力矩阵进行特征聚合，以实现图卷积操作；

步骤3. 利用MBA_3DGCN和LSTM搭建基于骨架序列的动作识别模型；

该动作识别模型首先在MBA_3DGCN模块同时提取骨架序列的空间和局部时序特征的基础上，再利用LSTM网络提取骨架序列的整个时序变化特征，进行动作识别；

步骤4. 将节点流信息数据作为动作识别模型的输入，对搭建好的动作识别模型进行训练，并利用训练好的动作识别模型进行动作识别，得到最终的识别结果。

2.根据权利要求1所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤1具体为：输入的人体三维的姿态序列，表示为；

其中N表示人体姿态信息关节点的个数，T为骨架序列的长度即关键帧数，D是输入关节点信息的维度，对于立体的关节点序列，D=3；

节点位置信息是通过对节点坐标数据向量进行中心化和归一化后得到的，节点运动速度信息为节点位置信息的一阶信息，节点运动加速度信息为节点位置信息的二阶信息；

对每个关节点的位置信息、速度信息和加速度信息进行融合作为节点分支的输入信息。

3.根据权利要求1所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤2具体为：步骤2.1. 构建单帧的多分支注意力图卷积；

步骤2.2. 将步骤2.1得到的单帧的多分支注意力图卷积扩充到时序域，得到该多分支注意力的三维图卷积的第t帧输出的表达形式；

步骤2.3. 对步骤2.2中的三维图卷积的第t帧输出的表达形式进行简化；

步骤2.4. 通过注意力矩阵的归一化处理优化三维图卷积的运算。

4.根据权利要求3所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤2.1具体为：针对单帧节点信息设置四个分支的特征转换矩阵，分别是自节点特征转换矩阵、向内连接邻节点特征转换矩阵、向外连接邻节点特征转换矩阵和全局其他节点特征转换矩阵，，是输入特征的维度，是输出特征的维度；用于提取自节点特征，、、用于提取全局其他节点特征；

加入注意力机制的多分支局部特征提取的图卷积公式表示为：（1）

其中，表示关注自身特征的注意力矩阵；表示关注向心相邻节点的注意力矩阵；表示关注离心相邻节点的注意力矩阵；对单帧节点信息，从全局角度提取节点特征，设置单帧的全局特征转换矩阵，然后对输入的节点信息进行最大池化MaxPool，设置的步幅stride为2；MaxPool提取身体某个部位的特征，得到多个身体部位的特征，再通过注意力矩阵来关注各个身体部位的特征；

则加入注意力机制的全局特征提取的图卷积公式表示为： (2)

然后把多分支局部特征和全局特征综合，得到单帧的多分支注意力图卷积的输出为：（3）。

5.根据权利要求4所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤2.2中，将公式（3）示出的单帧的多分支注意力图卷积扩展到t时刻相邻的连续多帧，即1帧扩展为t时刻的连续多帧，过程如下：设卷积时间核长度为，针对t时刻相邻的连续的帧，需要个针对每一帧的、、、注意力矩阵以及针对每一帧的变换矩阵；

则该多分支注意力的三维图卷积的第t帧输出表示为：（4）

其中表示时间，[ ]为取整操作，表示节点分支的输入信息，中的上标in表示输入，中的下标表示短时时序；

实现了对短时时序的帧的每一帧聚合的特征进行转换。

6.根据权利要求5所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤2.3具体为：对公式(4)进行简化，不同的帧采用相同的特征变换矩阵，按四个分支分别设置四个共享的特征转换矩阵，则简化后的3D图卷积公式表示为：（5）。

7.根据权利要求6所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤2.4具体为：对公式(5)中的每个分支的所有帧的特征聚合，此处代指、、、，它们有相同的操作，并进行如下优化处理：（1）将特征聚合展开，等价表示为：

(6)

（2）对拼接后的注意力矩阵进行行归一化操作处理，表示为： (7)

其中，操作采用softmax函数，并将公式(7)定义为Δ运算，则改写为： (8)

公式(8)中i即为局部时间序列参数，从i=0时的第一帧到时的最后一帧；

把式(8)代入式(5)得：

(9)

把公式（9）写成分开公式形式：

(10)。

8.根据权利要求1所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述动作识别模型还包括全连层FC和Softmax；其中，经过LSTM网络进行全局时序特征提取后，再经过全连层FC和Softmax实现人体动作的识别。

9.根据权利要求1所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤4中，对搭建好的动作识别模型的训练的过程如下：步骤4.1. 获取标准人体动作识别NTU_D数据集；

步骤4.2. 对数据集NTU_D获得人体姿态关节点序列数据并进行预处理，即进行中心化和归一化参数下的关节序列数据，计算关节点的运动速度信息、运动加速度信息；

然后融合得到动作识别模型输入的数据，即三维节点数据序列；

步骤4.3. 利用步骤4.2得到的三维节点数据序列，作为动作识别模型的输入；

根据表示人体骨骼的连接情况的邻接矩阵初始化、和，随机初始化K个可学习的全局注意力矩阵；用uniform函数初始化LSTM的所有权重W和随机初始化h的值；利用NTU_D数据集对整个动作识别模型进行预训练，批量大小为64，权重衰减设置为0.0001，学习率设置为0.1；最终获得训练的模型参数。

10.根据权利要求1所述的基于多分支三维图卷积和LSTM的动作识别方法，其特征在于，所述步骤4中，在获得训练好的动作识别模型后，首先通过人体姿态估计算法或深度摄像头获取人体骨骼序列；然后按照步骤1的预处理过程对骨骼序列数据进行预处理；最后将将骨架序列输入到MBA_3DGCN和LSTM搭建的动作识别模型中，进行人体动作识别。