买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种融合几何结构特征图的手语识别方法、系统、装置及存储介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种融合几何结构特征图的手语识别方法、系统、装置及存储介质

￥31200

专利号： 2021114741697

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种融合几何结构特征图的手语识别方法，其特征在于，包括：获取手语视频，将其帧数和像素大小统一调整；

将统一调整后的手语视频输入预建立的三维卷积神经网络，提取手语特征，所述三维卷积神经网络预先进行过训练；

将手语特征输入预建立的深度卷积生成对抗网络，生成手语特征图，所述深度卷积生成对抗网络预先进行过训练；

将手语特征图的像素大小统一调整，根据手语特征图的G通道和B通道的手部轨迹信息进行预分类，得到预分类类别；

将统一调整后的手语特征图输入预建立的VGG16网络，输出特征向量，特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果；

所述深度卷积生成对抗网络预先进行过训练：

对手语视频进行手动标记手语特征图，将三维卷积神经网络输出的手语特征和标记的手语特征图输入深度卷积生成对抗网络进行训练，直至深度卷积生成对抗网络能够生成手语特征图；

根据手语特征图的G通道和B通道的手部轨迹信息进行预分类：获取G通道和B通道的像素坐标集合交集，获取方式如下：

G'G＝{(x,y)|G(x,y)≠0}

B'＝{(x,y)|B(x,y)≠0}

I＝G′∩B′

其中，G'表示G通道内值不为0的像素坐标集合，G(x,y)表示G通道在像素坐标(x,y)处的值，B'表示B通道内值不为0的像素坐标集合，B(x,y)表示B通道在像素坐标(x,y)处的值，I表示G通道和B通道的像素坐标集合交集；

预分类的方法如下：

其中，P为平均像素坐标点，m为I中元素的个数，Ii表示I中第i个元素，Pre为预分类类别，Px表示平均像素坐标点的横坐标，Py表示平均像素坐标点的纵坐标。

2.根据权利要求1所述的一种融合几何结构特征图的手语识别方法，其特征在于，将手语视频的帧数统一为16帧：其中，indexi表示统一完成后手语视频的第i帧为原手语视频帧序列的第indexi帧，round()表示对参数进行四舍五入的运算，len(input)表示输入视频的长度，i表示统一完成后手语视频的第i帧；

将手语视频的像素大小统一调整为126×126像素，将手语特征图的像素大小统一调整为224×224像素。

3.根据权利要求1所述的一种融合几何结构特征图的手语识别方法，其特征在于，所述三维卷积神经网络包括5层三维卷积层，在每层三维卷积层后都接有1层最大池化层，在最后连接有2层全连接层；所述三维卷积层的形状为3×3×3，第一层最大池化层的形状为2×

2×1，剩余最大池化层的形状为2×2×2；所述三维卷积层中卷积核的个数按前后顺序分别为32、64、128、256、512，两层全连接层中神经元个数分别为2048和100。

4.根据权利要求1所述的一种融合几何结构特征图的手语识别方法，其特征在于，对手语视频进行手动标记手语特征图：获取一张RGB值为(0,0,0)、大小为64×64像素的图片，记为wp，使用RGB值为(0,0,255)的蓝色标记手语视频中每一帧左手腕关键点并按帧序连接成线，记为bl，使用RGB值为(0,

255,0)的绿色标记手语视频中每一帧右手腕关键点并按帧序连接成线，记为gl，使用RGB值为(255,0,0)的红色分别标记手语视频中第h帧的左手和右手的五个指尖关键点，并将左右手的五个指尖按拇指、食指、中指、无名指、小指的顺序连接成闭环，记为rl，其中h满足h％3＝0，％为求余符号；

将wp、bl、gl和rl进行逐像素相加得到手语特征图：其中，FM(x,y)表示手语特征图，wp(x,y)、bl(x,y)、gl(x,y)、rl(x,y)分别表示wp、bl、gl、rl在像素坐标(x,y)处的像素值。

5.根据权利要求1所述的一种融合几何结构特征图的手语识别方法，其特征在于，所述特征向量包含多个元素，每个元素对应一个手语词汇，每个元素的值均在0到1之间，元素的值表示结果为对应手语词汇的概率，值最高的元素对应的手语词汇为识别结果。

6.一种融合几何结构特征图的手语识别系统，其特征在于，包括：获取模块：用于获取手语视频，将其帧数和像素大小统一调整；

手语特征提取模块：用于将统一调整后的手语视频输入预建立的三维卷积神经网络，提取手语特征，所述三维卷积神经网络预先进行过训练；

手语特征图提取模块：用于将手语特征输入预建立的深度卷积生成对抗网络，生成手语特征图，所述深度卷积生成对抗网络预先进行过训练；

预分类模块：用于将手语特征图的像素大小统一调整，根据手语特征图的G通道和B通道的手部轨迹信息进行预分类，得到预分类类别；

识别模块：将统一调整后的手语特征图输入预建立的VGG16网络，输出特征向量，特征向量中值最高的元素在预分类类别对应的手语词汇库中对应的手语词汇为识别结果；