买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于自适应图卷积神经网络的动作识别方法和装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于自适应图卷积神经网络的动作识别方法和装置

￥31200

专利号： 2021105640998

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于自适应图卷积神经网络的动作识别方法，其特征在于，所述动作识别方法包括：S1，获取待识别人体动作类型的视频流数据，采用已有的姿态估计算法，对导入的视频流数据进行处理，得到人体骨架类型数据和人体骨骼图形，生成同时得到每个关键节点的坐标及其置信度特征，生成人体骨骼数据集；

S2，计算人体运动过程中骨骼围绕关键节点转动时角动量发生的变化，将相邻骨骼边之间的角度这一变量作为深层次的空间特征；

S3，提取人体动作持续时间内的能量信息，将骨骼围绕关键节点转动产生的角度差累加得到在动作持续时间内角度变化的总和，采用每个关键节点对应的角度差累加之和除以当前动作的关键帧数，计算得到每个关键节点的平均能量变化值，将其作为深层次的时间特征；

S4，构建双流图卷积神经网络，其中，关节数据和骨骼数据分别作为J流和B流的输入数据，预测动作标签作为输出数据；

S5，对双流图卷积神经网络进行扩展，并联2个新增子网络，搭建动作识别模型，新增子网络分别用于对空间特征和时间特征进行处理的子网络；该动作识别模型用于同时对关节数据、骨骼数据、深层次的空间特征和深层次的时间特征进行处理，计算得到对应的动作类型；

步骤S2中，所述计算人体运动过程中骨骼围绕关键节点转动时角动量发生的变化，将相邻骨骼边之间的角度这一变量作为深层次的空间特征的过程包括以下步骤：S21，根据人体骨骼数据集中每个关键节点的坐标以及其物理连接，计算所有相邻骨骼之间的角度；其中，当节点的度为1时，即节点只有一条边，不计算角度；当节点的度为2时，即一个节点连接两条边，计算一个小于180°的角度；当节点的度为3时，即一个节点连接3条边，则计算3个角度；当节点的度为4时，计算4个角度；

S22，针对整个动作持续时间内的n个关键帧中的所有角度，将计算得到的角度按照关键节点和视频帧的顺序组合成矩阵的形式，扩展得到的角度矩阵为：式中，m是角度总数，是第i个角度在第j个关键帧中的取值，i＝1，2，...，m，j＝1，

2，...，n；

S23，用后一帧任意一个关键点的角度减去前一帧对应关键点的相应角度，得到相邻帧之间同一个节点周围边形成的角度差；计算相邻帧之间以同一个节点为中心点，其周围骨骼所形成的角度差矩阵Δθ：式中，是第m个角度在第n‑1个关键帧中的取值。

2.根据权利要求1所述的基于自适应图卷积神经网络的动作识别方法，其特征在于，步骤S3中，所述提取人体动作持续时间内的能量信息，将骨骼围绕关键节点转动产生的角度差累加得到在动作持续时间内角度变化的总和，采用每个关键节点对应的角度差累加之和除以当前动作的关键帧数，计算得到每个关键节点的平均能量变化值，将其作为深层次的时间特征的过程包括以下步骤：S31，将计算得到的角度差矩阵Δθ，按照时间顺序累加求和，得到每一个节点上的角度变化总和θI，θI的表达形式如下所示：其中，下标“1～m‑1”表示关键节点的标号，上标中的“1

～n‑1”代表关键帧，组成一个1×(m‑1)的能量矩阵θI；

S32，将步骤S31中得到的θI除以当前动作的帧数，得到当前动作的平均能量θa，其中n为姿态估计算法提取出来的关键帧数。

3.根据权利要求1所述的基于自适应图卷积神经网络的动作识别方法，其特征在于，步骤S4中，构建双流图卷积神经网络的过程包括以下步骤：步骤4.1：搭建自适应图卷积层；该自适应图卷积层用于以端到端的学习方式，将网络的拓扑结构与网络的其他参数一起优化，骨架图对于不同的层和样本是唯一的，图的拓扑结构由邻接矩阵Ak和掩码Mk决定，Ak确定两个顶点之间是否存在连接，Mk确定连接的强度，得到了如下表达形式：式中，Kv表示空间维的核大小，设置为3；Wk是权重矩阵，k∈[0，3]；

表示经过归一化后的对角矩阵，Ak为N×N的邻接矩阵，用于代表人类身体的物理结构；Bk为N×N的邻接矩阵，Bk中的元素跟随自适应图卷积层一起训练并优化，Bk的值没有限制，矩阵中的元素是任意值，用于表明两个关节之间存在连接和连接的强度；Ck是一个数据相关图，用于为每一个样本学习一个唯一的图；

为了确定两个顶点之间是否存在连接以及连接的强度，采用归一化的嵌入高斯函数来计算两个顶点之间的相似度：其中，N表示关键点的总数，vi和vj节点上的特征信息；

给定的一个特征矩阵输入，使用两个嵌入函数θ(·)和将输入的维度从Cin×T×N变为Ce×T×N，这两个嵌入后的特征矩阵被重新排列和重塑成一个N×CeT的矩阵和一个CeT×N的矩阵，将二者相乘变成一个相似矩阵，利用下述公式计算出ck：式中，Wθ和是嵌入函数θ(·)和的参数；

步骤4.2：搭建自适应图卷积模块；该自适应图卷积模块包括依次连接的空间图卷积层convs、时间图卷积层convt、附加的随机丢弃处理Dropout和一个残差连接；其中，Dropout率设置为0.5；空间图卷积层convs和时间图卷积层convt之后各连接有一个批标准化层和一个激活函数层；

步骤4.3：通过对自适应图卷积模块进行堆栈，搭建得到自适应图卷积网络；该自适应图卷积网络包括9个自适应图卷积模块，每个自适应图卷积模块的输出通道数分别为64、

64、64、128、128、128、256、256和256；在开始时添加数据BN层以标准化输入数据，执行全局平均池化层以将不同样本的特征映射池化为相同大小，最终输出被发送到SoftMax分类器以获得预测；

步骤4.4：搭建双流图卷积神经网络；

计算关节的数据和骨骼的数据，将关节数据和骨骼数据分别输入J流和B流，再将两个流的SoftMax分数相加，得到融合分数并预测动作标签。

4.根据权利要求3所述的基于自适应图卷积神经网络的动作识别方法，其特征在于，步骤S5中，计算得到对应的动作类型的过程包括：S51，对双流图卷积神经网络进行扩展，在双流图卷积神经网络的2个已有子网络的基础上，并联2个新增子网络，搭建得到动作识别模型；

S52，将骨骼数据、关节数据、骨骼之间的角度变化和动作所产生的能量分别导入动作识别模型的四个子网络，得到对应的预测分数；所述动作识别模型中还包括累加器和SoftMax分类器，4个预测分数经累加器相加后，将累加结果导入SoftMax分类器，得到最终的分类结果；最终分类结果S的计算公式为：S＝S1W1+S2W2+S3W3+S4W4

式中，S1、S2、S3、S4分别为4个子网络的预测得分结果；W1、W2、W3、W4是4个子网络的权重，是超参数。

5.一种基于权利要求1‑4任一项中所述方法的基于自适应图卷积神经网络的动作识别装置，其特征在于，所述动作识别装置包括：人体骨骼数据集生成模块，用于获取待识别人体动作类型的视频流数据，采用已有的姿态估计算法，对导入的视频流数据进行处理，得到人体骨架类型数据和人体骨骼图形，生成同时得到每个关键节点的坐标及其置信度特征，生成人体骨骼数据集；

空间特征提取模块，用于计算人体运动过程中骨骼围绕关键节点转动时角动量发生的变化，将相邻骨骼边之间的角度这一变量作为深层次的空间特征；

时间特征提取模块，提取人体动作持续时间内的能量信息，将骨骼围绕关键节点转动产生的角度差累加得到在动作持续时间内角度变化的总和，采用每个关键节点对应的角度差累加之和除以当前动作的关键帧数，计算得到每个关键节点的平均能量变化值，将其作为深层次的时间特征；

双流图卷积神经网络构建模块，用于构建双流图卷积神经网络，其中，关节数据和骨骼数据分别作为J流和B流的输入数据，预测动作标签作为输出数据；

动作识别模型构建模块，用于对双流图卷积神经网络进行扩展，并联2个新增子网络，搭建得到动作识别模型，2个新增子网络分别用于对空间特征和时间特征进行处理的子网络；

动作识别模型，用于同时对关节数据、骨骼数据、深层次的空间特征和深层次的时间特征进行处理，计算得到对应的动作类型。

6.根据权利要求5所述的基于自适应图卷积神经网络的动作识别装置，其特征在于，所述双流图卷积神经网络包括2个子网络；其中，关节数据和骨骼数据分别作为2个子网络的输入数据，经子网络处理后得到对应的预测分数。

7.根据权利要求6所述的基于自适应图卷积神经网络的动作识别装置，其特征在于，所述子网络或者新增子网络均包括9个自适应图卷积模块，每个自适应图卷积模块的输出通道数分别为64、64、64、128、128、128、256、256和256；在开始时添加数据BN层以标准化输入数据，执行全局平均池化层以将不同样本的特征映射池化为相同大小，最终输出被发送到SoftMax分类器以获得预测；

所述自适应图卷积模块包括依次连接的空间图卷积层convs、时间图卷积层convt、附加的随机丢弃处理Dropout和一个残差连接；其中，Dropout率设置为0.5；空间图卷积层convs和时间图卷积层convt之后各连接有一个批标准化层和一个激活函数层。

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1‑4中任一项所述的基于自适应图卷积神经网络的动作识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1‑4中任一项所述的基于自适应图卷积神经网络的动作识别方法。