利索能及
我要发布
收藏
专利号: 2019102910818
申请人: 中山大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于时间感知结构的视频动作识别方法,其特征在于,包括以下步骤:

步骤S1:对原始视频数据进行稀疏采样,等间隔地对视频抽取n帧,对视频帧经过数据增广处理后作为第一二维卷积神经网络的输入帧数据;

步骤S2:利用第一二维卷积神经网络对原始视频的各个输入帧数据分别进行处理,得到对背景、尺度和光照的变化具有鲁棒性的深度特征,并形成特征图t;

步骤S3:将第二二维卷积神经网络进行训练,将训练好的第二二维卷积神经网络作为监听流网络,将第一二维卷积网络中的一部分卷积层输出的深度特征经过压缩后作为监听流网络的输入信息;

步骤S4:利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模,得到各个卷积分支含有时间维度的特征图t1;

步骤S5:使用时间维度的最大化池化操作去除特征图t1时间维度上的冗余性信息,再使用第三二维卷积网络进一步对特征图t1中的时空特征进行提取,得到最终的视频描述向量;

步骤S6:将最终的视频描述向量经过全连接层之后输出各个类别的概率对数值;

步骤S7:将监听流网络的输入信息输入到训练好的监听流网络进行特征提取,得到特征图t2,使用全局池化将特征图t2压缩成一个特征向量,经过全连接层之后输出各个类别的概率对数值;

步骤S8:对最终的视频描述向量输出的各个类别的概率对数值以及监听流网络输出的各个类别的概率对数值进行归一化处理,获得最终各个动作类别的概率,概率最大动作类别的即为网络识别的最终结果。

2.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法,其特征在于,所述的第一二维卷积网络、第二二维卷积网络、第三二维卷积网络的第l层的第c个通道 对应的卷积公式为:其中,Cl-1是第l-1层的通道数量,h代表一个通道, 代表第l层第c个通道对应的卷积核的对应于第l-1层第i个通道的卷积权值,f(·)为激活函数,为通道对应的偏置。

3.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法,其特征在于,所述的多尺度时间感知结构包含多个不同时间尺度的卷积分支,每个卷积分支都使用全分组三维卷积的形式,将全分组三维卷积定义为输入通道数、输出通道数、分组数都相等的三维卷积,对于分支α上的全分组三维卷积,使用如下公式表示:其中, 代表分支α上第j个输出特征图的第c个通道,Mjc代表与 相关的输入特征图的集合,tic表示输入的第i个特征图的第c个通道, 表示时间卷积分支α上对应于第i个输入特征图的第c个通道的卷积权值, 代表时间卷积分支α上第j个输出特征图的的第c个通道对应的偏置,*代表卷积,f(·)代表激活函数。

4.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法,其特征在于,利用多尺度时间感知结构对特征图t的多个尺度上的时间信息进行建模的过程采用了全分组三维卷积来解耦了不同通道的时间维度,全分组三维卷积的参数量为kh×kw×kt×ci,即对应卷积核空间高×空间宽×时间长×输入通道数量。

5.根据权利要求1所述的一种基于时间感知结构的视频动作识别方法,其特征在于,步骤S8的具体过程如下:得到最终的视频描述向量和监听流网络对动作类别预测的概率对数值之后,对两个流的对指值取平均,然后输入到softmax分类器中计算最终的各个行为类别的概率,公式如下:其中,pi为最终预测为第i类的概率,zi为第i类对应的平均对数值,e为自然对数的底。