利索能及
我要发布
收藏
专利号: 2020104528604
申请人: 重庆大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度学习的手势跟踪与识别方法,其特征在于,主要包括以下步骤:

1)采集若干手势彩色图像,并对所述手势彩色图像进行预处理;

2)标记出手势彩色图像的手部区域框;对手势彩色图像进行分类,为每幅手势彩色图像打上唯一标签,并生产数据标签文件;

3)建立手势数据集;所述手势数据集包括手势彩色图像和对应的标签;

4)搭建Darknet‑53卷积神经网络模型;

5)利用训练数据集对Darknet‑53卷积神经网络模型进行预训练,得到训练后的Darknet‑53卷积神经网络模型;

6)将训练后Darknet‑53卷积神经网络模型的网络参数迁移到目YOLOv3网络模型中,并初始化;

7)使用k‑means聚类算法对手势彩色图像的手部区域框进行聚类,得到k类手部区域框;将每类手部区域框宽高维度的聚类中心作为YOLOv3网络模型的配置文件的初始候选框参数;

8)将手势数据集输入到YOLOv3网络模型中,对YOLOv3网络模型进行训练,得到训练后的YOLOv3网络模型;

9)获取实时视频流,并以视频帧方式输入到训练后的YOLOv3网络模型中;利用训练后的YOLOv3网络模型对实时视频图像进行识别,得到手部区域框和手势类别信息;

训练后的YOLOv3网络模型的损失函数L(O,o,C,c,l,g)如下所示:L(O,o,C,c,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g); (1)式中,λ1、λ2和λ3分别表示置信度损失Lconf(o,c)、目标类别损失Lcla(O,C)和目标定位损失Lloc(l,g)的加权系数;

其中,置信度损失Lconf(o,c)如下所示:

式中, 表示预测目标边界框i内是否存在目标的Sigmoid概率; oi∈{0,1},表示预测目标边界框i中是否真实存在目标,如不存在其值为0,存在则为1;

目标类别损失Lcla(O,C)如下所示:

式中, 表示网络预测目标边界框i内存在第j类目标的Sigmoid概率;

Oij∈{0,1},表示预测目标边界框i中是否存在第j类目标,0表示不存在,1表示存在;

目标定位损失Lloc(l,g)如下所示:

式中,表示预测边界框坐标的偏移量; 表示与之匹配的Ground Truth与默认框之间的坐标偏移量;(x,y)代表检测框中心相对网络位置的偏移;(w,h)表示检测框的宽和高;

其中,预测边界框横坐标偏移量 纵坐标偏移量 宽的偏移量 和高的 分别满足下式:x y w h x y w h

式中,(c ,c ,p ,p)为默认框参数;(b ,b ,b ,b)为预测的目标边界框参数;下标i表示预测目标边界框i;

Ground Truth与默认框之间的横坐标偏移量 纵坐标偏移量 宽的偏移量 和高的偏移量 分别满足下式:x y w h

式中,(g ,g ,g ,g)为与之匹配的真实目标边界框参数。

2.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,采集手势彩色图像的装置为摄像头。

3.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对所述手势彩色图像进行预处理方法为:利用数据增强方法对手势彩色图像进行扩充;数据增强方法包括翻转、平移和添加噪声。

4.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述训练数据集为Egohands数据集。

5.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,所述手势彩色图像在不同的场景、手部倾斜角度、手部尺度和光照条件下采集。

6.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对Darknet‑53卷积神经网络模型进行预训练的方法为:将训练数据集中的手部图像和标签文件输入到Darknet‑53卷积神经网络中,利用梯度下降算法不断更新Darknet‑53卷积神经网络权重,直至Darknet‑53卷积神经网络权重满足阈值,得到训练好的Darknet‑53卷积神经网络模型。

7.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,k‑means聚类时,每个手部区域框和聚类中心的重合度满足下式:d(box,centroid)=1‑IOU(box,centroid);     (13)式中,d(box,centroid)为每个手部区域框中心和聚类中心centroid的最短距离;IOU(box,centroid)为每个手部区域框中心和聚类中心centroid的距离。

8.根据权利要求1所述的一种基于深度学习的手势跟踪与识别方法,其特征在于,对实时视频图像进行识别的主要步骤如下:

1)将视频帧以416*416的分辨率输入到训练后的YOLOv3网络模型中,得到三种不同尺度的特征图,每个n*n大小的特征图有n*n个特征图网格,每个特征图小格产生r个建议框;

2)对特征图进行手势类别识别,主要步骤如下:

2.1)利用YOLOv3网络模型判断第a个建议框属于第s类手势类别的概率pas,若概率pas<ε1,则将第a个建议框置0;ε1为概率阈值;a初始值为1,s初始值为1;

2.2)令a=a+1,并返回步骤2.1),直至r*n*n个建议框的概率均计算完毕;

2.3)以概率大小对非0建议框进行降序排列;用非极大值抑制算法去掉重复率>重复率阈值ε2的建议框;

2.4)令s=s+1,并返回步骤2.1),直至k类手势类别均识别完毕;

2.5)保留每个手势类别中概率最大的建议框,将其余建议框置零;概率最大的建议框对应的手势类别即为视频帧的手势类别;建议框为手部区域框。