利索能及
我要发布
收藏
专利号: 2017100438344
申请人: 南京邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于计算机视觉的快递暴力分拣识别方法,其特征在于,所述方法包括如下步骤:

步骤1:基于深度摄像机的姿态估计:采用深度摄像机直接估计快递操作人员的人体三维姿态,并把人体姿势估计问题转换为对深度摄像机捕获到的深度图像像素进行分类的问题,通过使用随机森林的方法得到人体姿态估计;

步骤2:人体三维姿态相对时空特征的提取:三维姿态中关节形成的点、线、面几何元素集合是不同动作模式对应的局部区域的最小构成单元,提取三维姿态中关节形成的点、线、面几何元素之间的相对空间位置及其变化的度量作为姿态的特征表示,通过不同局部区域包含的不同类型特征的权重组合,来表达广泛的姿态模式;

步骤3:基于递归神经网络的暴力分拣识别:随着时间连续变化的姿态形成运动,分拣操作行为具有时间特性,通过LSTM型递归神经网络,对从时间连续的人体三维姿态中提取的相对时空特征进行建模训练,从而实现对快递暴力分拣行为的识别。

2.根据权利要求1所述的一种基于计算机视觉的快递暴力分拣识别方法,其特征在于,所述步骤1的基于深度摄像机的姿态估计具体包括以下步骤:

1)训练数据生成:使用运动捕捉技术采集高精度快递操作动作数据,将其加入到运动捕获数据库,然后对人体三维姿态集采用最大距离聚类分析方法,以剔除相似的冗余数据,最后,使用标准计算机图形学技术人工合成训练用的深度图像;

2)人体部位标签定义:定义若干个人体部位标签,使它们可以稠密地覆盖整个身体,把深度图像与人体部位标签图绑定为一个数据对作为训练数据;

3)深度图像特征提取:对于每个深度图像中的像素点,提取具有平移不变性的深度比较特征;

4)随机决策森林构建:采用最大信息增益构建决策树,每棵决策树都在一个不同的随机合成图像集上训练,随机决策森林是由若干棵决策树所组成,每棵决策树都有若干个分支节点和叶子节点,每个分支节点都由一个特征和一个阈值组成;

5)图像像素分类:对图像中的每个像素进行分类,从决策树根节点开始,根据特征值与阈值的比较结果往左或者往右分支,最终到达的决策树的叶子节点决定了该节点所属于的身体部位标签,对每个训练集上生成的决策树求平均值作为每个像素最终的所属身体部位标签;

6)人体骨骼节点位置估计:根据每个像素所属于的身体部位标签的位置,使用均值漂移方法估计身体部位的密度,取最大密度的中心作为人体骨骼关节位置。

3.根据权利要求1所述的一种基于计算机视觉的快递暴力分拣识别方法,其特征在于,所述步骤2的人体三维姿态相对时空特征的提取具体包括以下步骤:

1)定义三维人体关节模型,选择其中最重要的若干个关节作为三维姿态表示;

2)构建几何元素集合,选择的关节构成了几何元素集合中的点集,点集中任意2点形成直线,任意3点则构成平面;

3)提取每个三维姿态相对空间特征,包括关节对距离特征、关节与骨骼距离特征、关节与平面距离特征、骨骼对夹角特征、骨骼与平面夹角特征、平面与平面夹角特征、关节旋转特征;

4)提取每个三维姿态相对时间特征,包括关节角速度与加速度特征。

4.根据权利要求1所述的一种基于计算机视觉的快递暴力分拣识别方法,其特征在于,所述步骤3的基于递归神经网络的暴力分拣识别具体包括以下步骤:

1)LSTM网络结构设计:LSTM暴力分拣识别模型的输入是连续地从人体三维姿态提取的相对时空特征,用表示,其中T表示连续输入的人体三维姿态数,xi表示从姿态i中提取的相对时空特征向量,LSTM暴力分拣模型的输出为,其中yi表示姿态i属于各个暴力分拣动作类别的概率向量,LSTM网络采用单层设计,共包含了若干个LSTM单元,LSTM单元的输出除了接入下一个时间LSTM网络外,还接入SoftMax层,SoftMax层的输出为该姿态属于各个暴力分拣动作类别的概率,SoftMax层后面接入的是Loss层,用来计算系统预测的类别和人工标记的类别的误差损失;

2)训练数据生成:对于深度摄像机收集的暴力分拣行为数据,采用人工标定的方法标定出每个暴力分拣行为所属于的类别,开始位置和结束位置;

3)LSTM模型训练:对于输入的连续的人体三维姿态相对时空特征,采用滑动窗口机制,从第一帧开始,连续取固定数量的帧作为一个样本输入到LSTM网络,采用主流的深度学习框架并适用梯度下降法对LSTM网络进行训练,待算法收敛后,保存该模型作为基于相对时空特征的LSTM暴力分拣识别模型,为提高识别准确率,对输入的样本,将当前帧的人体三维姿态的相对时空特征减去上一帧的相对时空特征,连续人体三维姿态对应的相对时空特征差值构成了另外一个样本集,在一个新的LSTM网络上训练,直到收敛,保存学习模型,作为基于相对时空特征差值的LSTM暴力分拣识别模型;

4)暴力分拣识别:对于分拣操作,采用步骤1获得姿态估计,采用步骤2提取相对时空特征,并进一步计算连续人体三维姿态对应的相对时空特征差值,采用滑动窗口机制,从第一帧开始,每隔所述固定数量的帧作为一个样本,在两个LSTM暴力分拣模型上分别进行识别,得到每个姿态属于每个暴力分拣动作类别的概率,取其加权的平均值,如果概率超过了一定的阈值,则判断该姿态为暴力分拣动作并给出其类别。