买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于动态局部-全局图卷积神经网络的动作识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于动态局部-全局图卷积神经网络的动作识别方法

￥31200

专利号： 2022107035504

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于动态局部‑全局图卷积神经网络的动作识别方法，其特征在于，包括以下步骤：(1)使用姿态估计算法将视频数据先处理成人体骨骼结构数据，原始的骨架序列是用每帧中所有人体关节点的三维坐标表示；

(2)从步骤(1)获取骨骼信息，节点信息和邻接矩阵A；关节信息是由每个关节点的空间坐标(x，y，z)组成的特征向量；由于每个骨骼绑定了两个关节，因此定义靠近骨骼重心的关节为源关节，远离重心的关节为目标关节；每个骨骼都表示从其源关节指向其目标关节的向量，该向量包含长度信息和方向信息；因为中心关节没有分配给任何骨骼，使得关节的数量比骨骼的数量多一个，因此向中心关节添加一个值为0的空骨骼，这样骨骼能够和关节使用相同的网络；邻接矩阵A是描述点与边有无联系的一个矩阵，其数值固定；将本步骤的信息用于步骤(3)；

(3)搭建出带有通道注意力的动态局部‑全局图卷积神经网络的基本框架；

(4)搭建带有通道注意力的双流动态局部‑全局图卷积神经网络模型，并训练看其效果：将步骤(2)中骨骼信息和节点信息作为时间特征和空间特征输入到步骤(3)所搭建的带有通道注意力的动态局部‑全局图卷积神经网络中，经过softmax分类器得到预测分数，然后再将2个分数相加，得到最终的分类结果；最终的分类得分为S，其表达式如公式(9)所示：S＝W1S1+W2S2 (9)

其中S1，S2分别表示2个子网络的预测得分，范围在0‑1之间；W1和W2表示它们的权重，W1+W2＝1，根据结果调整其数值大小；最终的分类得分S结果也在0‑1之间；

(5)训练本发明的模型：首先对数据进行预处理，将公开数据集NTU‑RGB+D内的数据结构进行重新组合，将步骤(2)的数据输入到步骤(3)中；采用Nesterov动量为0.9的随机梯度下降法作为优化策略；其批量为64，权重衰减为0.0001，选择交叉熵作为损失函数来反向传播梯度，训练次数为64次；得到最终准确的分类结果得分S。

2.根据权利要求1所述的一种基于动态局部‑全局图卷积神经网络的动作识别方法，其特征在于，所述步骤(1)具体为：(1.1)对于一个含有N个节点和T帧的骨架序列，在骨架序列上构建一个无向图G＝(V，E)；其中V＝{vti|t＝1，2，…，T，i＝1，2，…，N}代表节点集合，t表示帧数，i表示节点，每个节点的特征信息由空间坐标(x，y，z)组成的特征向量表示，E是Es和Et组成的边集合，Es表示在相同帧上的关节自然连接，是帧内连接；Et表示同一个关节点在相邻帧上的连接，是帧间连接；

(1.2)用NTU+RCB+D数据集将人体定义为25个关键关节点的三维坐标，在得到时空图的同时，还得到每个关节点的坐标及其置信度，将这些数据存储到文本文件中供后续使用。

3.根据权利要求1所述的一种基于动态局部‑全局图卷积神经网络的动作识别方法，其特征在于，所述步骤(3)具体为：(3.1)搭建动态局部‑全局图卷积层：以端到端的学习方式，将网络地拓扑结构与网络地其他参数一起优化，骨架图对于不同的层和样本是唯一的，由此增加模型的灵活性；如公式(1)所示：其中fDynamic GCN(·)表示动态局部‑全局图卷积输出特征图，fin(·)表示输入特征图，表示动态邻接矩阵，B表示全局自注意力矩阵，C表示局部自注意力矩阵；||表示concat操作，S(·)将动态邻接矩阵重新排列和重塑；WV1和WV2为1×1卷积核权重；3种分区策略为：

1、顶点本身；2、向心子集，它包含接近重心的相邻顶点；3、离心子集，它包含离重心较远的相邻顶点；

是维度为B×N×N的动态邻接矩阵；它从输入特征图中动态学习到3种分区策略中两

个顶点的之间的连接强度，增加了图结构的灵活性和个性化；具体来说，假设输入的特征图首先分别使用自适应平均池化和自适应最大池化并行操作将输入特征图的维度转化为B×Cin；接着经过一个全连接层压缩其通道数为Cin/4，再通过一个激活函数B×3和全连接层得到一个fd∈R 的特征图，并经过一个归一化函数softmax进行归一化为0‑1，作为权重动态的与邻接矩阵匹配；之后将其与物理邻接矩阵(A)3×N×N进行矩阵相乘，得到B×N×N的动态邻接矩阵Ad；通过上述操作，为不同的骨骼图动态的分配3个权重，用以自适应的融合3种分区的邻接矩阵；此外为了联系多级语义特征，将Ad和上一层的动态邻接矩阵相加再平均得到最终的动态邻接矩阵根据公式3可以计算出fd＝softmax(φ(θ(fin))) (2)

其中，φ(·)表示线性变化，θ(·)执行了自适应池化和压缩操作；A代表了3种分区策略下的3个物理邻接矩阵，它与特征图fd以加权求和的方式进行融合；

B是全局自注意力矩阵，它能帮助模型更好地针对每个样本进行动态建模；具体来说，给定一个输入特征图首先分别使用2个二维卷积层将fin映射并重新排列重塑为和的矩阵，然后相乘经过一个归一化函数得到B×N×N的相似

矩阵B：

B＝softmax((finWQ1)(finWK1)) (4)

其中WQ1、WK1是2个卷积层的卷积核权重；

C是局部自注意力矩阵；本发明提出了两种将人体骨骼划分为多个身体部位的组合方案，来提取其不同的局部特征：(1)人体在做一些动作时，躯干到四肢幅度是不同的，因此，将骨骼图分为三个部分；(2)将人体分为五个部分，包括两臂，两腿和躯干；有些动作是由身体的几个部位完成的；将N个骨骼节点按照上述两种方案分成α块，关注每块中的N/α个节点之间的空间关系，捕捉更加细微的联系；给定一个输入特征图使用1×1卷积将其重塑为和的矩阵；T维度被移到通道维度内，沿时间维

度有效地实现参数共享，并在每帧上分别进行计算：

C＝softmax((finWQ2)(finWK2)) (5)

其中WQ2，WK2是2个卷积层的卷积核权重；

(3.2)搭建动态局部‑全局图卷积模块：经过动态局部‑全局图卷积层之后是一个批处理标准化层，一个激活函数层和一个附加的随机丢弃处理层，Dropout率设置为0.5，将输出的特征图用于步骤(3.3)；

(3.3)搭建时间卷积模块：将步骤(3.2)的输出通过一个标准的2D卷积处理时间维度上的特征信息，时间卷积用1×Kt的卷积核对输入维度Cout×T×N中的T×N二维进行卷积操作，其中Kt是内核感受野内考虑的帧数；得到输出fout维度大小为Cout×Tout×N的特征图；经过时间卷积之后是一个批处理标准化层，一个激活函数层和一个附加的随机丢弃处理层，Dropout率设置为0.5；

(3.4)经过步骤(3.2)和步骤(3.3)后得到了提取的空间维度特征和时间维度特征，为了能够获取更好的动作特征表示，搭建了一种用于深层CNN的超强通道注意力模块，将其添加到在动态局部‑全局图卷积层和时间卷积后，重新校准通道特征，以提高识别精度；给定C×T×V一个输入特征映射X∈R ，首先逐通道执行全局平均池化提取信息得到维度1×1×C，然后使用卷积核大小为5的快速一维卷积来联系每个通道及其相邻通道，以获取跨通道交互信息并优化通道信息；再通过激活函数得到σ(y)；σ(y)为每个特征通道的重要性，最后将σ(y)与输入的X特征图相乘，得到该通道注意力模块的输出Out，操作如下：Z＝GAP(X) (6)

y＝Conv(Z) (7)

Out＝X×σ(y) (8)

其中Conv(·)是快速一维卷积函数，GAP(·)是全局平均池化，σ是激活函数，其函数形式是(3.5)搭建带有通道注意力的动态局部‑全局图卷积模块：一个基本块是一个动态局部‑全局图卷积模块、一个时间卷积模块、一个通道注意力模块，为了稳定训练，为每一个块添加一个残差连接；

(3.6)搭建一个带有通道注意力的动态局部‑全局图卷积神经网络：带有通道注意力的动态局部‑全局图卷积神经网络是对步骤(3.5)堆栈，总共有9个模块，每个模块的输出通道数为64，64，64，128，128，128，256，256和256；在开始时添加数据BN层以标准化输入数据，执行全局平均池化层以将不同样本的特征映射池化为相同大小，最终输出经过SoftMax分类器以获得预测。

4.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1‑3中任一项所述的一种基于动态局部‑全局图卷积神经网络的动作识别方法。

5.一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1‑3中任一项所述的一种基于动态局部‑全局图卷积神经网络的动作识别方法。