利索能及
我要发布
收藏
专利号: 2023111687030
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于骨架时空图卷积的复杂长程动作识别方法,其特征在于:包括以下步骤:步骤1,人体的骨骼点识别,提取输入视频中的人体关键点,并将人脸部、手掌、脚趾的无用骨骼点去除,然后将处理后的骨骼点坐标按帧存入输入序列;

步骤2,多尺度特征提取,用三个不同尺度的滑动窗口分别代表短时、中时和长时动作,截取输入序列中的骨架矩阵,并三个滑动窗口所剪切到的数据送入ST‑RGCN模型中获取特征向量;

所述ST‑RGCN模型由GCN、CNN和TCN三个模块构成;为了提取到更高级的特征,将GCN、CNN、TCN构成的模块堆叠七次,并采用残差连接;提取特征向量的过程如下:根据GCN从滑动窗口中提取骨骼关节点之间的空间特征,然后将提取后的特征根据TCN在时间维度上进行特征聚合,同时用CNN提取视频帧的色彩纹理特征,将骨骼时空特征和视频帧的色彩纹理特征进行融合,后得到该窗口下的特征向量;

步骤3,不同动作的粗分割,评估同一尺度滑动窗口下不同时刻的特征向量相似度,若相似度未能超过阈值,则认为两个时刻属于不同的动作,并将此分割点重定位至原视频;

步骤4,分割点的筛除,按时间顺序排列出不同尺度下的分割点,并将重合和时间上相近的点去除,以减小冗余的分割段;如果两个分割点相近,只保留一个值较大的点;

步骤5,分割点的微调,求出分割点之间的骨架变化最小值和最大值,然后求出分割点左右部分帧的骨架变化均值,若均值介于最大值和最小值之间,则认为其依然属于该动作,借此实现分割点的微调;

步骤6,动作分类,将提取到的特征传入MLP网络中求出该窗口下动作置信度的分布,并求出置信度均值,将置信度小于均值的动作视为背景,大于均值的则作为有效动作输出。

2.根据权利要求1所述的一种基于骨架时空图卷积的复杂长程动作识别方法,其特征在于:提取特征向量的具体方法为:首先根据人体姿态检测模型的骨架结构构建邻接矩阵A、度矩阵D,两个矩阵的大小是nn,n为骨骼点数量;邻接矩阵A中两个骨骼点之间如果有连接,则将矩阵中对应下标元素置为1,否则置为0;度矩阵D中,对角线的数值为该骨骼点同其他骨骼点有连接的数量,其余元素值为0;此时的邻接矩阵A和度矩阵D只有自己邻居节点的信息,为了使其具备自身节点的信息,令 , , 为一个节点本身;另一方面,为了避免邻居节点对自身影响过大,进而影响到图卷积特征向量的提取,令 ,则第 层GCN网络的输出表示为:

=  ;

而第 层CNN网络的输出表示为:

=  ;

融合特征之后输出表示为:

=  ;

最后需要时间卷积在时间维度上聚合特征,时间卷积的卷积核大小为 ,其中T为空间特征的个数;最终得到一个特征向量 。

3.根据权利要求1所述的一种基于骨架时空图卷积的复杂长程动作识别方法,其特征在于:步骤3中,滑动窗口每一次截取完输入序列后,都按照步骤2所述方式得到一个特征向量,将不同尺度得到的特征向量存入到不同的列表当中,当特征向量提取完毕后,采用高斯余弦熵函数比较列表中两个相邻特征向量的相似度并设定阈值,当其相似度小于此阈值时,则认为两个特征向量对应的视频帧属于不同的动作片段。

4.根据权利要求3所述的一种基于骨架时空图卷积的复杂长程动作识别方法,其特征在于:高斯余弦熵函数作为评估函数,具体实施过程如下:由于特征向量维度相同,设 , ,则

用高斯熵函数评价两个向量欧氏距离的相似度:

= ;

很显然,两个特征向量中的特征值欧氏距离越接近,则高斯熵越趋于1,反之,若两个向量中的特征值欧氏距离越远,则高斯熵越趋于0,用余弦相似度评价两个向量夹角相似度: = = ;

得到最终的相似度评价函数:

以此来判断特征向量之间的相似与否;

借鉴对比学习思想,不同的动作在其特征向量上应该具备一定的相似性,若两个特征向量的相似度太低,则有理由认为其属于不同的动作。