利索能及
我要发布
收藏
专利号: 2023100382791
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种自适应帧采样驱动的手势识别方法,其特征在于,所述手势识别方法包括以下步骤:S1:将摄像头捕获的帧序列转化为张量,并使用两个卷积层作为特征提取层提取张量中每一帧图像的特征;

S2:采用帧间运动注意力算法根据两帧间局部区域模式的相似度追踪S1中每一帧中的运动区域,为运动区域分配更大的关注权重;

S3:采用自注意力时间下采样算法根据重要性为相邻的多帧的同一区域分配不同的权重,再通过求和将多帧的特征融合为一帧;

S4:采用自注意力空间下采样算法根据重要性为局部区域的每一点分配不同的权重,再通过求和将局部区域不同点特征融合为一个点;

S5:将S4得到的冗余信息低的特征输入到已有的手势分类模型中,对手势进行分类。

2.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述S3中多帧的选取和S4中局部区域的选取,均通过步长为2的滑动窗口进行选取。

3.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述使用两个卷积层作为特征提取层提取帧序列中每一帧图像的特征的过程如下:将帧序列的每一帧图像输入到1×1卷积层和3×3卷积层中提取空间特征,两层卷积层的参数分别为:

1×1卷积层中输入通道数为3,卷积核大小为1×1,卷积核个数为64,步长为1,填充为

0;3×3卷积层中输入通道数为64,卷积核大小为3×3,卷积核个数为64,步长为1,填充为1。

4.根据权利要求1所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述帧间运动注意力算法计算过程如下:(1)将卷积层输出按照大小为(2,7,7,64)的窗口划分为同等大小的块,设经过卷积层后得到特征的维度为(D,H,W,64),其中D是帧数,H和W是每一帧图像的高和宽,64是通道数量,则按窗口划分后得到 个大小为(2,7,7,64)大小的块;

(2)将每个块再在第一个维度上进一步划分,每个大小为(2,7,7,64)的块被划分为(1,

7,7,64)大小的两个小块,那么就得到 组由两个小块组成的块;

将同一组的两个小块分别输入全连接层中提取模式,表达式为:其中,Qi和Ki分别是两个线性层处理第i组小块得到的输出,L1表示第一个线性层,L2表示第二个线性层,两个线性层的输入、输出通道数均为64, 表示第i组的第1个小块, 表示第i组的第2个小块;

求取两个小块各自的注意力权重并应用,首先计算相似度矩阵,表达式为:Attni=Qi@T(Ki)

其中,Attni表示第i组中两个小块的相似度矩阵,@表示矩阵相乘,T()表示将张量的最后两个维度进行转置;

接着分别计算两个小块各自的注意力权重,表达式为:AFi=R(Softmax(max(Attni,‑1)))ALi=R(T(Softmax(max(Attni,‑2))))其中,AFi和ALi分别是第i组中第1个和第2个小块的注意力权重,R表示在张量的最后一个维度将数据复制64次,Softmax()表示Softmax函数,max()表示求某一维度的最大值;

(3)将注意力权重应用到输入特征中,表达式为:

outputi=RS(concate(AFi,ALi))×input其中,outputi是第i个块应用帧间运动注意力权重的结果,RS()是将各个块按原来相对位置拼接,concate()表示将两组张量在第一个维度上拼接,input是S1中3×3卷积层的输出。

5.根据权利要求2所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述自注意力时间下采样算法计算过程如下:(1)将S2输出按照大小为(4,1,1,64),步长为2的滑动窗口划分为同等大小的块:(2)将每个块重构成(4,64)维度的块,再进行自注意力下采样操作,表达式为:yj=T(Softmax(S(L3(xj)@T(L4(xj)))))@L5(xj)其中,yj是第j个块的计算结果,S()是对输入张量的最后一个维度数据求和,L3、L4、L5是三个输入输出通道数均为64的全连接层,xj表示第j个块对应的张量;

(3)使用RS()将各个块的计算结果按原来的相对位置拼接。

6.根据权利要求2所述的一种自适应帧采样驱动的手势识别方法,其特征在于,所述自注意力空间下采样算法计算过程如下:(1)将S3的输出按照大小为(3,3,3,64),步长为2的滑动窗口划分为同等大小的块;

(2)将每个块的前三个维度合并为一个维度,则块的大小变为(27,64),计算注意力矩阵的表达式为:ak=Softmax(S(L6(ck)@T(L7(ck))))其中,ak是第k个块的注意力矩阵,L6和L7都是一个输入输出通道数均为64的全连接层,ck表示第k个大小为(27,64)的张量;

(3)计算注意力应用矩阵,表达式为:

vk=L8(ck)

其中,vk表示第k个块对应的注意力应用矩阵,L8为输入输出通道数均为64的一个全连接层;

将ak和vk分别调整为大小为(3,9,1)和(3,9,64)的块,然后进行矩阵相乘获得应用自注意力空间下采样算法的结果,表达式为:Soutk=T(ak)@vk

其中,Soutk是第k个块进行空间下采样的结果;

(4)将Soutk调整为大小为(3,64)的块,再按照vk原来的相对位置进行拼接。