利索能及
我要发布
收藏
专利号: 2021103345475
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于可分离三维残差注意网络的人体动作识别方法,其特征在于,该方法具体包括以下步骤:S1:构造可分离三维卷积,利用可分离三维卷积替换3D ResNet中的标准三维卷积,从而搭建Sep‑3D ResNet;其中,Sep‑3D ResNet是可分离三维残差网络;

S2:设计通道注意力模块以捕捉通道级重要性分布,设计空间注意力模块以自动权衡各空间位置的重要性,然后将两个注意力模块按顺序堆叠以构造双重注意力机制;

设计通道注意力模块,具体包括:采取全局平均池化操作对输入特征的空间维度进行

1×1×C′

聚合,生成通道描述子FC∈R ,表达公式为:

H′×W′×C′

其中,Ft∈R 表示t时刻的切片张量,t=0,1,…,T′,T′、H′、W′、C′分别表示输入立方体经过一组或一系列可分离三维卷积后得到的中层特征映射立方体的时间维度、高度、宽度和通道数;

随后,利用类似于自注意力函数的门控机制得到各通道的重要性分布集合,即将通道描述子FC送入带有一个隐藏层的多层感知机以激发非归一化的通道注意力映射;为限制模型的参数量,将隐藏激活层的维度设置为C′/r,r为缩减比;然后利用sigmoid激活函数进行归一化操作,得到最终的通道注意力映射;通道注意力求解过程表达式为:MC(Ft)=EPC(σ(MLP(FC)))=EPC(σ(W1(δ(W0FC))))其中,σ(·)表示sigmoid激活函数,δ(·)表示relu激活函数,W0、W1代表多层感知机的C′×H′×W′权重,EPC(·)表示将通道注意力值沿空间域扩展到原始维度,即令MC(Ft)∈R ;

为了执行自动特征校准,需要将通道注意力映射到原始输入特征,则细化后的切片张量计算过程为:其中,符号 指元素级乘法运算;

设计空间注意力模块,具体包括:利用全局平均池化操作聚合Ft′的通道维度,以生成一H′×W′×1个二维空间描述子FS∈R ,从而总结Ft′的全局通道信息,具体计算表达式为:随后,利用二维卷积操作而非多层感知机来计算其空间注意力值分布,即:

MS(Ft′)=EPS(σ(conv(FS)))

其中,conv(·)表示二维卷积操作,EPS(·)表示沿通道尺度上的维度变换操作;

在推断了原始切片张量Ft的通道注意映射和空间注意映射后,首先利用通道注意力模块实现特征校准,得到细化后的切片张量Ft′,然后在空间注意映射MS(Ft′)和Ft′之间使用元素级乘法操作执行特征再校准,得到注意力加权后的切片张量Ft”,从而实现在区分信息密集型通道的同时识别空间显著区域,并抑制冗余背景信息;得到的最终细化张量Ft”的计算过程为:S3:通过对不同时刻的中层卷积特征进行双重注意力加权,在时间维度上扩展双重注意力模块,然后将其嵌入到Sep‑3D ResNet的可分离三维残差块中,搭建形成Sep‑3D RAN模型;其中,Sep‑3D RAN是可分离三维残差注意网络;

S4:利用多阶段训练策略对Sep‑3D RAN模型进行联合端到端训练,具体包括:利用一个C全连接层生成最终的一维预测向量I∈R ,C指目标数据集的动作类别总数,然后选择softmax函数以计算输入视频所属类别的概率分布,即:其中, 表示第n个视频属于动作类别i的预测概率;

在优化阶段,利用交叉熵损失函数调节真实值与预测值之间的误差,损失函数表达式为:其中,yn,i表示给定输入视频相对应的真实标签值,N指训练过程中每一批次的样本数。

2.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S1中,所述的构造可分离三维卷积具体是通过三维卷积核分解操作将时空维度上的标准三维卷积近似为空间维度上的二维卷积和时间维度上的一维卷积,以构造可分离三维卷积。

3.根据权利要求1或2所述的人体动作识别方法,其特征在于,步骤S1中,所述的构造可分离三维卷积,具体包括:假定在卷积层i中有Ni‑1个输入特征,首先将Ni‑1个特征与Mi个大小为1×h×w×Ni‑1的二维空间滤波器进行卷积,其中h、w、Ni‑1分别为二维空间卷积核的高度、宽度和通道维数;然后再与Ni个大小为t×1×1×Mi的一维时间滤波器进行卷积,其中t和Mi分别表示一维时间卷积核的时间尺度和通道维数。

4.根据权利要求3所述的人体动作识别方法,其特征在于,Mi的设计原则遵循分解后的三维卷积参数量与标准三维卷积参数量近似相等的规则,由以下公式计算得出:

5.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S3中,搭建形成Sep‑3D RAN模型具体包括:各个时刻上的切片张量重复双重注意力加权过程,最后将各细化后的切片张量按照原始时间维度进行排列,堆叠为最终的细化特征立方体;

通过在Sep‑3D ResNet的可分离三维残差块中依次嵌入在时域膨胀后的通道注意力模块和空间注意力模块,得到了可分离三维残差注意块;最后遵循3D ResNet的模型架构搭建Sep‑3D RAN,即将3D ResNet中的简单残差块替换为可分离三维残差注意块。

6.根据权利要求1所述的人体动作识别方法,其特征在于,步骤S4中,利用多阶段训练策略对Sep‑3D RAN模型进行联合端到端训练,具体包括:首先利用预训练权重初始化网络参数以加速模型的收敛过程;考虑到Sep‑3D RAN具有四个可分离三维残差注意块,模型的训练过程被划分为四个阶段;在第一阶段,注意力机制仅被嵌入到第一个残差块中,然后固定该模块之前的网络层参数,训练后续的网络层;在第二阶段,向第二个残差块中继续嵌入注意力机制,然后利用第一阶段所学习到的网络权重初始化当前模块之前的网络层参数,并训练后续的网络层;重复上述过程直到所有残差块均嵌入了注意力机制。