买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于视频的行人与人群行为识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于视频的行人与人群行为识别方法

面议

专利号： 2019107711666

申请人：中国计量大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于视频的行人与人群行为识别方法，包括如下步骤：

步骤一，数据准备：准备描述全身整体动作行为的视频，用人体姿态估计算法得到每一个视频每一帧上每个人不同肢体关节点的二维关节点信息(x，y)，设定每个人全身共有18个关节点信息并构成一个骨架序列；

步骤二，数据处理：对每一段视频得到的骨架序按一定的跳帧方式取帧，得到一定数量的N帧信息；其中对于描述全身整体动作行为的骨架序列信息，以帧数×18关键点数×3的形状表示为1个三维数组；对于描述各个肢体行为动作的骨架序列信息，按头、胳膊、躯干、脚人体部位对人体18个关键点进行区分，得到各自对应的三维数组，分别存放在一个JSON文件，作为网络模型的输入；

步骤三，单个行人行为识别联合网络结构设计：设计一种端到端的单个行人人体行为特征学习网络，每个单人识别行为联合网络是由多个单人肢体行为网络构成，每个单人肢体行为网络包含一个基本的卷积神经网络，这个卷积神经网络包含4个卷积层、1个转置层、

2个最大池化层；从视频帧中选取K个肢体骨架序列信息，输入K个这样的基本卷积神经网络，最终都连上同一个含有1个Concat层、2个卷积层、2个最大池化层的神经网络构成一个单人肢体网络；单人肢体部位联合网络由单人全身行为网络和各个肢体行为网络组成，并且把网络的第一层全连接层输出的特征全部叠加，最后叠加后的特征通过分类层进行动作识别分类；扩展到多人交互行为网络时，由多个单人肢体部位联合网络组成，对各自的Conv6层输出的图像特征叠加，通过特征处理层，最后连上2个全连接层；

人群交互行为识别网络结构设计：设计一种端到端的群体行为特征学习网络框架，该框架由多个单人行为联合网络和一个群体行为网络构成；每个人的骨骼信息分别输入到各自的单人行为识别网络，同时所有人的骨骼信息都输入到群体行为识别网络，所有输出的特征通过Flatten层，由多维转为1维，最后接上两个全连接层进行输出分类；

步骤四，单个行人行为识别网络训练：将处理好的单个人的各个肢体行为动作的骨架序列信息分别送入对应的4个肢体网络，都采用Soft-max损失函数进行训练分类，提取每个网络中第一个全连接层上的256维特征向量，进行叠加得到256×4维的向量特征；接下来，再在单人整体网络中的第一层全连接层上叠加这4个肢体网络层输出的特征向量，总共为

1280维，再经过一个全连接层，也采用Soft-max损失函数进行分类训练，得到行人动作的训练结果；

人群交互行为识别网络的训练：将处理好的单个人骨架序列信息按照单个行人行为识别网络的方法去训练得到特征并且将所有单人骨架序列信息全部送入人群交互行为识别网络中得到群体行为特征，最后所有特征进行叠加，再全部进行叠加/最大化/平均操作来进行合并，又进行扁平化，最后使用soft-max损失函数进行群体行为的分类；

步骤五，网络测试：将一段多帧骨架序列输入到单个行人行为识别网络中去，利用训练好的行人行为识别模型进行特征提取，获得单个行人的行为分类结果；或者将一段多帧多人骨架序列输入到人群交互行为识别网络框架中，并利用训练好的模型进行特征提取，获得该群体行为的分类结果。

2.根据权利要求1所述的基于视频的行人与人群行为行为识别方法，其特征在于：所述步骤一中，包括：

把一段多帧骨架序列分割为4个部分；头部动作种类为：摇头、点头、晃头、不动；手部或者胳膊的肢体动作种类分为弯曲摆臂、伸直摆臂、推拉、垂立；脚或腿部的种类为跑、站立、走、蹲；躯干的动作种类为弯腰、站立；单个行人的动作分类有跌倒、跳和下蹲，人群交互行为分类有拥抱、握手、打架行为；18个含有三维坐标信息的关键点描述人体各个部位的骨骼信息，关键点按头部、胳膊、躯干、腿的顺序排列，即为单帧人体骨架序列。

3.根据权利要求1所述的基于视频的肢体与人体行为识别方法，其特征在于：所述步骤二中，还包括：

步骤2.1按照头、胳膊、躯干、脚人体部位对人体18个关键点进行区分，头部包含了5个关键点，左手和右手各有3个关键点，躯干有3个关键点，左脚或腿和右脚或腿各有2个关键点，分成4个部分，与帧数和坐标组成三维骨架序列；

步骤2.2以跳帧的方法从视频帧中选取K个N帧信息，第1个信息的第1帧选择为视频的第0帧，则第一个该N帧视频是由0，5，··，5(N-1)帧的信息组成；由此可推第K个N帧信息是由5(K-1)N，··，5(K*N-1)帧的信息组成。

4.根据权利要求1所述的基于视频的行人与人群行为识别方法，其特征在于：所述步骤三中，还包括：

在单个行人行为识别网络结构中，将4个肢体行为识别网络的Fc7全连接层输出的特征固定参数并且都叠加到单人全身行为识别网络Fc7全连接层输出的特征上，以此增强单个行人全身的行为动作分类效果；在人群交互行为识别网络结构中，将所有单个行人的骨骼信息全部输入到群体行为网络中去，叠加上单人骨骼送入单人行为联合网络中输出的特征，来达到增强人群交互行为识别的效果。

5.根据权利要求1所述的基于视频的行人与人群行为识别方法，其特征在于：所述步骤四中，还包括：

单人整体网络与肢体部位网络结构相同，不同的是将每个肢体部位网络在第一个全连接层输出的256维特征进行固定并且叠加到整体网络第一个全连接层输出的特征上，最后连接一个全连接层进行分类。