买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度学习的手势跟踪与识别方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度学习的手势跟踪与识别方法

￥22300

专利号： 2020104528604

申请人：重庆大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度学习的手势跟踪与识别方法，其特征在于，主要包括以下步骤：

1)采集若干手势彩色图像，并对所述手势彩色图像进行预处理；

2)标记出手势彩色图像的手部区域框；对手势彩色图像进行分类，为每幅手势彩色图像打上唯一标签，并生产数据标签文件；

3)建立手势数据集；所述手势数据集包括手势彩色图像和对应的标签；

4)搭建Darknet‑53卷积神经网络模型；

5)利用训练数据集对Darknet‑53卷积神经网络模型进行预训练，得到训练后的Darknet‑53卷积神经网络模型；

6)将训练后Darknet‑53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中，并初始化；

7)使用k‑means聚类算法对手势彩色图像的手部区域框进行聚类，得到k类手部区域框；将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数；

8)将手势数据集输入到YOLOv3网络模型中，对YOLOv3网络模型进行训练，得到训练后的YOLOv3网络模型；

9)获取实时视频流，并以视频帧方式输入到训练后的YOLOv3网络模型中；利用训练后的YOLOv3网络模型对实时视频图像进行识别，得到手部区域框和手势类别信息；

训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示：L(O,o,C,c,l,g)＝λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)； (1)式中，λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数；

其中，置信度损失Lconf(o,c)如下所示：

式中，表示预测目标边界框i内是否存在目标的Sigmoid概率； oi∈{0,1}，表示预测目标边界框i中是否真实存在目标，如不存在其值为0，存在则为1；

目标类别损失Lcla(O,C)如下所示：

式中，表示网络预测目标边界框i内存在第j类目标的Sigmoid概率；

Oij∈{0,1}，表示预测目标边界框i中是否存在第j类目标，0表示不存在，1表示存在；

目标定位损失Lloc(l,g)如下所示：

式中，表示预测边界框坐标的偏移量；表示与之匹配的Ground Truth与默认框之间的坐标偏移量；(x，y)代表检测框中心相对网络位置的偏移；(w,h)表示检测框的宽和高；

其中，预测边界框横坐标偏移量纵坐标偏移量宽的偏移量和高的分别满足下式：x y w h x y w h

式中，(c ,c ,p ,p)为默认框参数；(b ,b ,b ,b)为预测的目标边界框参数；下标i表示预测目标边界框i；

Ground Truth与默认框之间的横坐标偏移量纵坐标偏移量宽的偏移量和高的偏移量分别满足下式：x y w h

式中，(g ,g ,g ,g)为与之匹配的真实目标边界框参数。

2.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，采集手势彩色图像的装置为摄像头。

3.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，对所述手势彩色图像进行预处理方法为：利用数据增强方法对手势彩色图像进行扩充；数据增强方法包括翻转、平移和添加噪声。

4.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，所述训练数据集为Egohands数据集。

5.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。

6.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，对Darknet‑53卷积神经网络模型进行预训练的方法为：将训练数据集中的手部图像和标签文件输入到Darknet‑53卷积神经网络中，利用梯度下降算法不断更新Darknet‑53卷积神经网络权重，直至Darknet‑53卷积神经网络权重满足阈值，得到训练好的Darknet‑53卷积神经网络模型。

7.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，k‑means聚类时，每个手部区域框和聚类中心的重合度满足下式：d(box,centroid)＝1‑IOU(box,centroid)； (13)式中，d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离；IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。

8.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法，其特征在于，对实时视频图像进行识别的主要步骤如下：

1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中，得到三种不同尺度的特征图，每个n*n大小的特征图有n*n个特征图网格，每个特征图小格产生r个建议框；

2)对特征图进行手势类别识别，主要步骤如下：

2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas，若概率pas<ε1，则将第a个建议框置0；ε1为概率阈值；a初始值为1，s初始值为1；

2.2)令a＝a+1，并返回步骤2.1)，直至r*n*n个建议框的概率均计算完毕；

2.3)以概率大小对非0建议框进行降序排列；用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框；

2.4)令s＝s+1，并返回步骤2.1)，直至k类手势类别均识别完毕；

2.5)保留每个手势类别中概率最大的建议框，将其余建议框置零；概率最大的建议框对应的手势类别即为视频帧的手势类别；建议框为手部区域框。