利索能及
我要发布
收藏
专利号: 2021113860472
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于机器视觉的手语识别方法,其特征在于,包括:获取待识别的手语视频,使用二维骨骼识别模型OpenPos识别手语视频中每一帧人像的骨骼关键点,构建上肢骨骼数据;

根据上肢骨骼数据裁剪手语视频中的每一帧原图像,并对裁剪后的图像剔除背景,获得包含上肢且无背景的检测图像;

计算得到检测图像的像素特征以及上肢骨骼数据的骨骼特征;

通过卷积神经网络分别对像素特征和骨骼特征进行提取,得到像素识别特征和骨骼识别特征;

将像素识别特征和骨骼识别特征进行融合,并输入Bi‑LSTM网络获得识别向量;

再将识别向量输入softmax层获得结果向量,结果向量中值最大的元素对应的手语词汇为识别结果。

2.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,对裁剪后的图像剔除背景的方法,包括:

采用预设的语义分割模型DeepLabV3+对裁剪后的图像剔除背景;其中,预设的语义分割模型DeepLabV3+的主干网络Xception替换为MobileNet V3。

3.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,根据上肢骨骼数据裁剪手语视频中的每一帧原图像,包括:根据上肢骨骼数据计算裁剪边界,根据裁剪边界对手语视频中的每一帧原图像进行裁剪;裁剪边界计算公式为:

x1=Max(Dx)

x2=Min(Dx)

y1=Max(Dy)

y2=Min(Dy)

其中,x1、x2、y1、y2分别表示右边界、左边界、上边界、下边界裁剪位置,Max()、Min()分别表示取参数中的最大值、最小值,Dx、Dy分别表示各上肢骨骼关键点的横坐标集合、纵坐标集合。

4.根据权利要求1所述的一种基于机器视觉的手语识别方法,其特征在于,所述像素特征包括三值帧差特征和灰度像素特征;上肢骨骼数据的骨骼特征包括骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征;通过卷积神经网络分别对三值帧差特征、灰度像素特征、骨骼几何关系特征、骨骼轨迹特征和手部骨骼特征进行提取,得到三值帧差识别特征、灰度像素识别特征、骨骼几何关系识别特征、骨骼轨迹识别特征和手部骨骼识别特征。

5.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,所述上肢骨骼数据在手指和手掌设有21个骨骼关键点,手指和手掌的骨骼关键点构成手部骨骼特征。

6.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,三值帧差特征计算过程,包括:

将检测图像中上肢部分的灰度值设定为255,将检测图像中其余部分的灰度值设定为

0,得到二值化处理的检测图像;

计算二值化处理的检测图像中每个像素点的二值帧差特征Dn(x,y),再根据二值帧差特征Dn(x,y)计算三值帧差特征D'n(x,y),计算公式为:Dn(x,y)=fn(x,y)‑fn‑1(x,y)其中,n表示手语视频中第n帧,x表示像素点的横坐标,y表示像素点的纵坐标,fn(x,y)、fn‑1(x,y)分别表示第n帧、第n‑1帧二值化处理的检测图像中像素点(x,y)的灰度值,若n=

1,则设n‑1=1。

7.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,所述骨骼几何关系特征包括双手前臂夹角Angle、手腕间斜率Kw、左腕脖向量特征WNl和右腕脖向量特征WNr;

所述双手前臂夹角Angle的计算公式为:V1=Plw‑Ple

V2=Prw‑Pre

其中,V1表示左手肘到左手腕骨骼关键点的向量,V2表示右手肘到右手腕骨骼关键点的向量,Plw、Ple、Prw、Pre分别表示左手腕、左手肘、右手腕、右手肘骨骼关键点坐标,Arccos()表示求参数的反余弦值,Dot(V1,V2)表示求向量V1和向量V2的点乘;

所述手腕间斜率Kw的公式计算为:其中,yleft、yright分别表示左手腕、右手腕骨骼关键点纵坐标,xleft、xright分别表示左手腕、右手腕骨骼关键点横坐标;

左腕脖向量特征WNl和右腕脖向量特征WNr的计算公式为:WNl=Plw‑Pn

WNr=Prw‑Pn

其中,Pn表示脖子骨骼关键点坐标。

8.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,骨骼轨迹特征的计算过程为:

所述手语视频的帧数为N,矩阵M为手语视频中第m帧手腕骨骼轨迹特征;矩阵M的计算公式为:

Vtrail=Pcurr‑Plast其中,Vtrail表示当前帧与上一帧的手腕骨骼关键点位置差,Pcurr、Plast分别表示当前帧、上一帧手腕骨骼关键点的坐标,Vtrail(x)表示Vtrail在x轴方向上的分量,Vtrail(y)表示Vtrail在y轴方向上的分量;

Vtrail(x)、Vtrail(y)在矩阵M的第m列,若当前帧为第1帧,则设Plast=Pcurr。

9.根据权利要求4所述的一种基于机器视觉的手语识别方法,其特征在于,灰度像素特征的计算,包括:

检测图像中各像素点的灰度值计算公式为:Gray(x,y)=R(x,y)×0.299+G(x,y)×0.587+B(x,y)×0.114其中,Gray(x,y)表示在像素点坐标(x,y)处的灰度值,R(x,y)、G(x,y)、B(x,y)分别表示在像素点坐标(x,y)在R、G、B通道下的像素值;

将各像素点的灰度值根据设定的顺序排列成列向量,所述列向量为灰度像素特征。