买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多尺度特征融合的动作识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多尺度特征融合的动作识别方法

￥14900

专利号： 2022114651093

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多尺度特征融合的动作识别方法，其特征在于，包括如下步骤：

步骤1、将视频按帧进行分段，得到的每一帧图像使用姿态估计的方法对图像中的对象进行关节点估计，得到关节点的特征信息，并对特征信息进行增强；

步骤2、每一帧图像经过VGG19卷积网络提取特征，得到一组特征图，然后将特征图分别使用CNN网络提取置信度和关联度，得到这两个信息后，使用图论中的二分图匹配求出部分关联，将同一个人的关节点连接起来得到的骨架图并对关节点标注序号；

步骤3、利用得到的关节点的特征信息，计算每一帧待识别对象中骨骼关节点的坐标信息、骨骼边的向量信息以及相邻帧之间同一关节点的关节点运动信息；

步骤4、搭建并训练图卷积网络，图卷积网络先计算骨架图的邻接矩阵，即关节点之间的拓扑关系，再将步骤3得到的三种类型的信息分别输入到训练好的图卷积网络中进行特征提取，根据拓扑关系将节点之间的信息进行卷积，得到分别对应的三种类型的输出特征信息；

步骤5、将步骤4得到的输出特征进行特征的融合，得到待识别视频最终的时空特征；

步骤6、根据步骤5得到的最终的时空特征进行动作识别，最终得到待识别视频的动作识别结果。

2.根据权利要求1所述的基于图卷积网络的动作识别方法，其特征在于，步骤1具体过程如下：使用姿态估计的方法对图像中的对象进行关键点估计，输入一段视频，假设待识别视H*W*C频 St表示第t帧视频，待识别视频V共有T帧图像，t∈(1,2,...,T)，St＝R ，其中H,W和C分别表示图像的高度、宽度和通道，其中待识别视频V＝{vti|t＝1,2,...,T,i＝1,

2,...,N}，i表示第i号关节点，vti表示第t帧第i个关节点的特征信息；

对关节点的特征信息进行增强，使用高斯核函数，将关节点的信息转换到高斯嵌入空间当中，再判断关节点之间的拓扑关系。

3.根据权利要求1所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中关节点的坐标信息的获取方法：根据人体骨架图关节点的序号，求出其余关节点到1号关节点的相对位置，作为关节点的坐标信息vti。

4.根据权利要求3所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中骨骼边的向量信息的获取方法：根据人体骨架图关节点的序号连接情况，按照距离1号关节点的远近，定义骨骼边的向量方向，由近及远，远的关节点作为骨骼边向量的终点，近的关节点作为骨骼边向量的起点，终点减去起点得到骨骼边向量，作为骨骼的向量信息，计算公式如下：eti＝vti‑vtj。

5.根据权利要求4所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤3中关节点运动信息的获取方法：假设相邻两帧图像中，相同的关节点之间有边连接，关节点就是按照这条边的轨迹从前一帧图像移动到后一帧图像，这类信息即关节点运动信息，它以向量的形式存在，把后一帧图像的关节点作为运动信息的终点，前一帧图像的关节点作为运动信息的起点，终点减去起点得到运动信息，计算公式如下：mti＝vt+1i‑vti。

6.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤4中通过图卷积网络计算骨架图的邻接矩阵方法如下：图卷积公式如下：

l l l

其中H表示l层的输入，H∈R，W为第l层的权重参数矩阵，为非线性激活函数，A是邻接矩阵，即关节点之间的拓扑关系，是拉普拉斯矩阵；

节点之间拓扑关系的计算方法：

其中θ和φ是一个1*1的卷积层，n是与i号关节点有关的n个其他关节点，vti和vtj的关系是先转换到高斯嵌入空间再进行计算。

7.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤4中特征提取的方法为：在骨骼边和关节点的运动轨迹上会存在很多个点，又因为两点可以确定一条直线，将骨骼边和关节点的运动轨迹抽象成四个点表示这两类的信息，分别取线段上的1/2点和1/4点表示线段，将三种类型的信息都可以用点来表示，最后用一个特征提取网络来进行特征提取。

8.根据权利要求7所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤5具体过程如下：选择使用连接的方式，先对三种输出特征信息的张量进行归一化，然后使用连接的方式，将三种输出特征信息进行融合，得到一个张量；

特征的融合：

Z＝[vout||eout||mout]

其中vout是关节点的坐标信息经过图卷积网络的输出特征，eout是骨骼连接便的向量信息经过图卷积网络的输出特征，mout是关节点的运动信息经过图卷积网络的输出特征。

9.根据权利要求5所述的基于图卷积网络的动作识别方法，其特征在于，所述步骤6具体过程如下：先使用数据库里的真值图对由步骤1‑步骤5组成的神经网络进行训练，即重复步骤1到步骤5，完成训练后神经网络具备了对视频中对象的动作进行识别的能力，再使用验证集对其进行验证；

将步骤5中得到的张量输入到神经网络的最后一层全连接层，将融合之后的特征进行分类，得到待识别视频的动作识别结果。