利索能及
我要发布
收藏
专利号: 2020101072888
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:包括以下步骤:

S1:基于传统的卷积3D神经网络C3D,将各个卷积模块的连接方式改为残差式连接,引入恒等映射;

S2:在残差模块中,利用3D核分解技术,将原始的3D卷积核分解为空间核和多个并行的多尺度时间核MTTL,以减少模型参数,接着,嵌入注意力模型CBAM,得到全新的残差模块A3D block;

S3:通过堆叠A3D block以及池化层,调整各个模块的输入输出设置,完成最终的A3D残差网络的搭建;

S4:利用设计好的A3D卷积残差神经网络模型,搭建时空双流识别模型,分别将RGB视频图像和光流图像两种模态作为网络输入;

S5:联合利用多级特征融合与决策融合方法,首先在特征层面融合时间网络和空间网络中不同层特征,再通过决策级权值融合策略权衡多个softmax分类器的类分数向量,实现分数级决策融合;

S6:再利用主成分分析PCA降维算法,对融合后的特征描述子降维去相关,最后通过多分类的SVM分类器完成对视频动作的分类识别;

步骤S2中所述的3D核分解包括:

利用3D核分解技术,将3×3×3卷积核沿着空间维度和时间维度分解,得到一个1×3×

3的空间卷积核,以及一个3×1×1的时间卷积核,减少模型参数;同时并入1×1×1以及2×

1×1不同尺度时间核,设计出多尺度的时间转变层MTTL来提升对时间域中多粒度时间信息的提取能力;

步骤S2中所述在残差模块中引入注意力模块CBAM,CBAM分为通道注意力CAM和空间注意力SAM,其中C×W×H

在通道注意力模型中,首先将输入特征F∈R ,其中C,W,H分别代表特征平面通道数、宽度与高度值,分别通过最大池化和平均池化,压缩空间维度,再利用多层感知层(MLP)制取通道权重,最后相加,通过relu激活层,再映射到输入特征各个特征通道,实现对输入特征通道注意力分数的合理分配,过程计算表示为:Mc=relu{MLP(maxpool(F))+MLP(avgpool(F))},Mc为CAM的输出,即通道加权后的显著性特征;

在空间注意力模型中,同样通过最大池化和平均池化,压缩掉Mc的通道维度,通过串联两个特征描述子得到携带通道显著性的两通道特征,再利用一个卷积操作Conv计算Conv[maxpool(F),avgpool(F)}得到空间权重,归一化后与Mc相加,得到空间显著性特征;由于CAM与SAM在空间关注上互补,使得CBAM能实现对特征空间信息的全方位筛选;在残差模块中,CBAM模型直接接收空间核的输出作为输入,赋予模型有效的特征筛选机制。

2.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S1中,将原始C3D中各个特征模块之间顺序直连的方式改为残差式连接,具体包括:*

将特征模块的原始输入xn‑1,即恒等映射,与其输出的和作为新的输出yn,表示为yn=R*(xn‑1,W)+xn‑1,其中W表示残差模块中的可训练参数,通过残差映射R结合原始输入xn‑1,拟*合网络训练中的可变残差值,R (xn‑1,W)+xn‑1表示shortcut连接,保证前层信息在向网络更深层传播时不易丢失,避免梯度弥散与梯度爆炸。

3.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S4中所述双流识别模型的搭建过程如下:使用A3D卷积残差神经网络作为双流网络的基础模型,利用RGB图像特征以及对应的光流特征分别作为空间流和时间流网络的输入;其中光流特征的获取是通过利用空间金字塔模型SpyNet导出,该模型直接接入到双流流网络中,通过梯度的反向传播与时间流网络以及空间网络一同参加训练,微调自身参数。

4.根据权利要求1所述的基于残差式3D CNN和多模态特征融合策略的视频动作识别方法,其特征在于:步骤S5中所述多级特征融合与决策融合方法,具体包括:分别从A3D卷积残差神经网络的不同特征层,包括A3D_2a、A3D_3a、A3D_5a以及softmax* *层,导出多级互补特征fi ,fi,其中fi ,fi分别表示来自时间流网络以及空间流网络的多级特征,接着对导出的特征采用加权求和的方式融合对应的时间流和空间流特征,用于权衡*双流网络的贡献,即计算Fi=Wi[fi,fi ],其中Fi,Wi分别是第i层特征融合的输出和对应的权值融合参数矩阵;然后加权融合后的特征通过一个1×1×1的卷积层以及最大池化层,经过sofmax后得到由各层融合特征产生的决策分数,对各层的决策分数再进行一次分数级的权值融合,以制取具有强表征力的特征描述子。