买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于分流注意力网络的人体动作识别方法、系统及设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于分流注意力网络的人体动作识别方法、系统及设备

￥22200

专利号： 2022102523732

申请人：淮阴工学院

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-22

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于分流注意力网络的人体动作识别方法，其特征在于，包括以下步骤：S1、将人体动作识别数据集中的视频解析成人体动作帧序列，其中，人体动作识别数据集中的视频为带标签的人体动作视频；

S2、对解析的人体动作帧序列进行随机的翻转和变换操作进行数据增强，得到预处理后的人体动作帧序列，并采样得到训练数据集和测试数据集；

S3、将步骤S2中的训练数据集输入到分流注意力网络中，提取出通道域和时空域的人体动作外观特征；分流注意力网络包括主干网络模块，主干网络模块包括5个顺序连接的残差块，每个残差块包括一个7×7的卷积层、通道域注意力模块、时空域注意力模块、一个1×

1卷积层、一个3×3卷积层和一个1×1卷积层；

主干网络模块中第一残差块的7×7的卷积层提取训练数据集中的人体动作底层特征R，并分别输出至通道域注意力模块和时空域注意力模块；

通道域注意力模块使用空间自适应平均池化顺序推理出一维的通道域注意力掩码Mca；

并将一维的通道域注意力掩码Mca和人体动作底层特征R进行相乘再相加得到通道域注意力特征Rca；

时空域注意力模块使用通道平均和最大池化顺序推理出一维的时空域注意力掩码M′sta；并将一维的时空域注意力掩码M′sta和人体动作底层特征R进行相乘再相加得到时空域注意力特征Rsta；

对得到的通道域注意力特征Rca和时空域注意力特征Rsta进行相加得到通道域和时空域的人体动作混合特征；

人体动作的混合特征依次经过1×1卷积层、3×3卷积层和1×1卷积层后输入第二残差块；然后依次经过第三残差块、第四残差块和第五残差块输出人体动作的外观特征；

S4、将步骤S3得到的人体动作外观特征输入到BiLSTM循环神经网络和时差点积自注意力模块结合的时序网络模型中，提取出人体动作的时差时序特征；

S5、基于步骤S4得到的时差时序特征训练人体动作特征模型，将测试数据集输入训练好的人体动作特征模型中，得到人体动作的最终分类结果。

2.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，步骤S2中训练数据集采样方法为：从预处理后的人体动作帧序列中随机的选择采样间隔和起始帧作为训练数据集；

测试数据集采样方法为：从预处理后的人体动作帧序列中以第一帧开始均匀的采样作为测试数据集。

3.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，通道域注意力模块通过压缩空间特征来增强通道域特征的影响，并通过局部跨通道交互进一步增强通道特征的表达能力，具体包括以下步骤：S301、对于主干网络模块中第一残差块的7×7的卷积层提取的人体动作底层特征R，通道域注意力模块使用空间自适应平均池化在所有通道上进行空间特征编码，压缩空间特征为一个全局特征，并将全局空间信息压缩到通道描述符中，获得通道域特征信息；采用的空间自适应平均池化公式为：NT×C×H×W

其中，通道域注意力模块的输入特征为人体动作底层特征R∈R ，NT是人体动作底层特征图的数量，C是每张人体动作底层特征图的通道数，H是每张人体动作底层特征图NT×C×1×1的高，W是每张人体动作底层特征图的宽，通道域注意力模块的输出特征F∈R ；

S302、使用2D卷积层k1以比例r来压缩通道域注意力模块的输出特征F的通道数，进一步减少参数量；其采用的公式为：Fr＝k1*F

其中，k1是一个1×1的2D卷积层，Fr为压缩通道特征，将Fr重塑为S303、将步骤S302重塑后的压缩通道特征F′r输入到1D卷积层k2中来进行跨通道交互；

其采用的公式为：

Ftemp＝k2*F′r

其中，k2是一个1×1的1D卷积层，Ftemp为交互通道特征，将Ftemp重塑为S304、使用2D卷积层k3对步骤S303重塑后的交互通道特征F′temp进行解压缩并馈送到Sigmoid激活函数中；其分别采用的公式为：Fc＝k3*F′temp

Mca＝δ(Fc)

NT×C×1×1 NT×C×1×1

其中，Fc为通道掩码，Fc∈R ，Mca为一维的通道域注意力掩码，Mca∈R ，δ(·)是Sigmoid激活函数，最终得到的通道域注意力特征Rca为：Rca＝R+R⊙Mca。

4.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，时空域注意力模块通过压缩通道特征来增强空间特征的影响，并通过3D卷积层来进一步增强空间特征的时序表达能力，具体步骤为：NT×C×H×W

S311、将主干网络模块中第一残差块的7×7的卷积层提取的底层特征R∈R 重塑N×T×C×H×W为R′∈R ；

S312、时空域注意力模块使用通道平均池化和通道最大池化在所有空间上进行通道特征编码，分别压缩通道特征为全局特征Favg和Fmax，并将全局通道信息压缩到空间描述符中，获得时空特征信息；采用的平均池化和最大池化公式分别为：Fmax＝max(R′[:,:,i,:,:])

N×T×1×H×W

其中，Favg为空间注意力平均池化特征，Favg∈R ，Fmax为空间注意力最大池化特N×T×1×H×W征，Fmax∈R ；C为人体动作底层特征的通道数；

N×1×T×H×W

将空间注意力平均池化特征Favg重塑为F′avg∈R ；

N×1×T×H×W

将空间注意力最大池化特征Fmax重塑为F′max∈R ；

S313、使用3D卷积层k4分别对输入的重塑空间注意力平均池化特征F′avg和重塑空间注意力最大池化特征F′max进行时空特征提取；其具体公式分别为：F″avg＝k4*F′avg

F″max＝k4*F′max

N×1×T×H×W

其中，k4是一个1×1的3D卷积层，F″avg为时空注意力平均池化特征，F″avg∈R ，N×1×T×H×WF″max为时空注意力最大池化特征，F″max∈R ，将时空注意力平均池化特征F″avg重塑为

将时空注意力最大池化特征F″max重塑为

S314、对步骤S313输出的重塑时空注意力平均池化特征和重塑时空注意力最大池化特征进行融合并馈送到Sigmoid激活函数中；其采用的公式为：其中，Msta为一维的时空域注意力掩码；

N×T×1×H×W

S315、将步骤S314中一维的时空域注意力掩码Msta∈R 重塑为2D卷积特征M′staNT×1×H×W∈R ，并进行最终的特征加权；其采用的公式为：

Rsta＝R+R⊙M′sta

其中，Rsta为时空域注意力特征；

S316、将得到的通道域注意力特征Rca和时空域注意力特征Rsta进行相加得到通道域和时空域的人体动作混合特征X；

S317、将人体动作的混合特征X依次经过1×1卷积层、3×3卷积层和1×1卷积层后输入第二残差块；然后依次经过第三残差块、第四残差块和第五残差块输出人体动作的外观特征。

5.根据权利要求1所述的一种基于分流注意力网络的人体动作识别方法，其特征在于，步骤S4包括以下步骤：S41、BiLSTM循环神经网络从正反两个方向学习人体动作外观特征帧序列间的时序特征表示，并将前向的LSTM向量学习的特征与后向的LSTM向量学习的特征进行拼接，得到人体动作混合时序特征，然后输入时差点积自注意力模块；

S42、时差点积自注意力模块将输入的人体动作混合时序特征分别通过三次相同的线性映射得到三个特征矩阵Q、K、V；

S43、将特征矩阵Q和特征矩阵K的转置做点积相似度计算，得到权重矩阵；

S44、使用Softmax函数对得到的权重矩阵进行归一化；

S45、对步骤S44中归一化后的权重矩阵做时差特征加权，使得按顺序输入的训练数据集中的T帧序列由于输入的时间先后不同得到不同的权重分配；

S46、将步骤S45得到的权重矩阵和特征矩阵V进行点积计算并进行加权求和，得到最终的时差时序特征。

6.一种基于分流注意力网络的人体动作识别系统，其特征在于，包括：视频解析模块，用于将人体动作识别数据集中的视频解析成帧序列；

数据预处理模块，用于对解析的人体动作帧序列进行随机的翻转和变换操作进行数据增强；

数据集划分模块，用于从预处理后的人体动作帧序列中采样得到训练数据集和测试数据集；

特征提取模块，用于将数据集划分模块得到的训练数据集输入到分流注意力网络中，提取通道域和时空域的人体动作外观特征，并将人体动作外观特征输入到BiLSTM循环神经网络和时差点积自注意力模块结合的时序网络模型中，提取出人体动作的时差时序特征；

分流注意力网络包括主干网络模块，主干网络模块包括5个顺序连接的残差块，每个残差块包括一个7×7的卷积层、通道域注意力模块、时空域注意力模块、一个1×1卷积层、一个3×

3卷积层和一个1×1卷积层；

主干网络模块中第一残差块的7×7的卷积层提取训练数据集中的人体动作底层特征R，并分别输出至通道域注意力模块和时空域注意力模块；