1.一种基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:包括以下步骤:
步骤一:采用二维卷积和可分离三维卷积构造混合卷积模块;
步骤二:沿着时间维度对各输入特征执行通道移位操作,构建时间移位模块,促进相邻帧之间的信息流动,补偿二维卷积操作对动态特征进行捕捉的缺陷;
步骤三:从骨干网络的不同卷积层中导出多级互补特征,并对其进行空间调制与时间调制,从而使各层次特征在空间维度上具有一致的语义信息,在时间维度上具有多变的视觉节奏线索;
步骤四:通过构造自下而上的特征流和自顶向下的特征流,使各个特征之间相辅相成,互为补充,并对所述特征流进行并行处理,以实现多级特征融合;
步骤五:利用两阶段训练策略进行模型训练。
2.根据权利要求1所述的基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:步骤一中所述混合卷积模块构造过程包括:遵循三维残差网络的基本架构,在残差网络底层结构中采用二维卷积操作提取低级空间特征,在网络顶层结构中采取可分离三维卷积操作提取高级时空特征,从而搭建为混合卷积网络,其中可分离三维卷积操作指将卷积核大小为t×h×w的三维卷积沿着时空维度进行分解,从而得到大小为t×1×1的时间卷积核和大小为1×h×w的空间卷积核,其中,t,h,w分别表示所述卷积核的时间维度、高度和宽度。
3.根据权利要求1所述的基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:所述步骤二具体包括:
H×W×C
首先定义Ft∈R 表示第t时刻的特征张量,H,W和C分别表示输入特征的高度、宽度和通道维度;所述时间移位模块在时间维度上对各时刻输入特征的部分通道信息进行移位操作,从而将相邻帧的空间语义信息融合到当前帧中,进而促进相邻帧之间的信息交互,其数学表示如下:
其中, 表示将Ft‑1的部分通道信息在时间维度上前移至t时刻, 表示将Ft+1的部分0
通道信息在时间维度上后移至t时刻,Ft表示Ft中并未参与时间移位的通道信息;
时间移位模块仅移动小部分通道来建模时间流动,单向通道移动比率设置为1/8,在所述时间移位模块中,移位操作仅发生在残差映射分支中,使原始空间语义信息仍能够被完整地传递到后续网络层中。
4.根据权利要求1所述的基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:所述步骤三具体包括以下步骤:首先定义多级特征融合模块的输入,收集M个不同深度的卷积层特征,表示为:F={F1,F2,…FM},
其中, 表示从某一深度网络层中所导出的卷积特征,i∈(1,M);
引入时空调制过程如下:
T×H×W×C
1)空间调制:对于网络顶层特征Ftop∈R ,空间调制相当于恒等映射,保留其原有尺寸;对于其余网络深度的卷积特征 利用具有特定步长设计的二维卷积操作来削减各层次特征的空间尺寸大小,使其在空间维度上与网络顶层特征相匹配,即:其中,MS(·)表示空间调制操作;
2)时间调制:首先将经过空间调制操作更新后的各个特征重新表示为 然后对其在时间维度上进行下采样操作,其中下采样因子由一组精心设计的超参数 决定,αi表示与深度级为i的特征相对应的下采样因子;对通道维度进行下采样操作,下采样因子由参与特征导出的网络层个数n所决定,即: 其中,MT(·)表示时间调制操作。
5.根据权利要求1所述的基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:步骤四所述的特征融合具体包括:表示经过时空调制后的卷积特征;对于不同深度级的特征,利用自下而上的特征流和自顶向下的特征流进行特征聚合;
对于自下而上的特征流,从顶层特征开始,上一层级特征F′i利用元素级加法和下采样操作依次对下一层级特征F″i+1进行补充,即:其中,F″i+1表示经过自下而上流加聚后的特征, 表示元素级加法,g(·)表示下采样操作,用于保证聚合期间各层特征的维度不发生冲突,Ti/Ti‑1为采样因子;
对于自顶向下的特征流,从底层特征开始,下一层级特征F′i+1依次丰富上一层级特征F′i的空间语义信息,即:
其中,F′i为自顶向下流加聚后的特征,f(·)表示上采样操作,Ti/Ti‑1为采样因子;
对上述两种特征流进行融合,即通过同时处理两条并行的特征流,生成最终的分类判别特征,然后利用Softmax函数得到由多层级融合特征产生的分类预测结果。
6.根据权利要求1所述的基于混合卷积的多级特征融合模型的视频动作识别方法,其特征在于:步骤五所述的两阶段训练策略的具体为:在第一阶段,首先针对骨干网络进行训练,然后固定骨干网络部分的参数,单独训练后续的多级特征融合模块;在第二阶段,利用第一阶段所学习到的权重初始化多级特征融合模块,再通过端到端的训练范式对整个模型进行联合训练。
7.一种基于混合卷积的多级特征融合的视频动作识别系统,其特征在于:包括混合卷积模块、时间移位模块、多级特征融合模块及两阶段训练策略模块;
所述混合卷积模块为遵循三维残差网络的基本架构,在残差网络底层结构中采用二维卷积操作提取低级空间特征,在网络顶层结构中采取可分离三维卷积操作提取高级时空特征,从而搭建为混合卷积网络,其中可分离三维卷积操作指将卷积核大小为t×h×w的三维卷积沿着时空维度进行分解,从而得到大小为t×1×1的时间卷积核和大小为1×h×w的空间卷积核,其中,t,h,w分别表示所述卷积核的时间维度、高度和宽度;
所述时间移位模块用于沿着时间维度对各时刻输入特征的部分通道信息进行移位操作,补偿二维卷积缺乏动态特征提取能力的缺陷;
所述多级特征融合模块用于从骨干网络不同深度的卷积层中导出多级互补特征,然后利用空间调制操作促使各个特征在空间维度上具有相同的形状,利用时间调制操作捕获动作实例的视觉节奏动态变化情况,最后通过特征融合制取高质量的分类判别特征;
所述两阶段训练策略模块用于分阶段进行模型训练,最大化利用有限的视频数据。