利索能及
我要发布
收藏
专利号: 2022104355411
申请人: 中国计量大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进MobileNet的视频行为识别方法,其特征在于,所述改进MobileNet包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层;所述方法具体包括如下步骤:步骤一:使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作,生成对应每帧图像的特征图;

步骤二:对步骤一输出的特征图沿着时间轴进行加权逐点卷积,生成能量趋势图;步骤二通过如下的子步骤来实现:步骤2.1:针对步骤一输出的每一个特征图,构造32个具有相同尺寸的淡入因子随机向量,其最小值为0.0,最大值为1.0,向量维度为M;

步骤2.2:基于步骤2.1所得的32个随机向量生成32个尺寸为[1x1xM]的卷积核;

步骤2.3:基于步骤2.2所得的卷积核对当前特征图进行逐点卷积,输出尺寸为[W,H,

32]的特征图;

步骤2.4:重复步骤2.1至步骤2.3,直到处理完步骤一输出的所有特征图,得到一组尺寸为[W,H,32]的特征图,组成能量趋势图;

步骤三:将步骤二输出的能量趋势图中的所有特征图依次进行N个串联的两步卷积操作进行特征提取,得到待识别行为的特征向量;

所述两步卷积用于首先增加特征图的层数,再降低每一层特征图的维度;

步骤四:基于步骤三所得特征向量,使用最大池化层和全连接层进行信息综合,并使用SoftMax层进行分类,得到行为识别结果。

2.根据权利要求1所述的基于改进MobileNet的视频行为识别方法,其特征在于,步骤一通过如下的子步骤来实现:步骤1.1:对输入的视频进行解码,得到一系列有序彩色图像;

步骤1.2:取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入,每帧图像尺寸为[W,H,3];步骤1.3:使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作,输出尺寸为[W,H,M]的特征图;

步骤1.4:重复步骤1.2和步骤1.3,直到处理完步骤1.1得到的所有图像,得到一组尺寸为[W,H,M]的特征图。

3.根据权利要求1所述的基于改进MobileNet的视频行为识别方法,其特征在于,所述步骤三中的两步卷积操作中的第一步用于得到具有更多层数的特征图,第二步用于降低输入特征图的维度;

所述两步卷积操作中的第一步具体包括:

(1)使用步长为1的深度卷积对每个输入特征图进行处理,该步骤不改变输入特征图的尺寸;

(2)使用比步骤(1)处理后的特征图具有更高维度的卷积核对步骤(1)处理后的特征图进行逐点卷积;

所述两步卷积操作中的第二步具体包括:

(3)使用步长大于1的深度卷积对步骤(2)的输出结果进行处理,降低输入特征图的宽度和高度;

(4)使用与步骤(3)处理后的特征图具有相同深度的卷积核对步骤(3)处理后的特征图进行处理。