利索能及
我要发布
收藏
专利号: 2021113573675
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种复杂场景下实时视频多人行为识别方法,其特征在于,该方法具体包括以下步骤:

S1:利用采集设备捕获场景中人的视频帧;

S2:建立场景人脸标签库,对现有人脸识别模型进行训练;

S3:构建轻量化SlowFast 网络,用于复杂场景多人行为识别;

构建轻量化SlowFast 网络,具体包括以下步骤:

S31:构建SlowFast的Slow分支,依据3D‑ShuffleNetV2网络结构,对SlowFast的Slow分支3D‑ResNet50主干网络进行替换,替换过程中根据Slow分支低帧频的特性,对输入的视频帧按每16帧进行一次采样,并不对时序维度进行下采样计算,来构建新的Slow分支网络结构;

S32:构建SlowFast的Fast分支,依据3D‑ShuffleNetV2网络结构,对SlowFast的Fast分支3D‑ResNet50主干网络进行替换,替换过程中根据Fast分支高帧率、高时间分辨率和低通道能力的特性,对输入的视频帧按每2帧进行一次采样,并不对时序维度进行下采样,同时通道数是slow分支的1/8倍 ,来构建新的Fast分支网络结构;

S33:构建SlowFast的横向连接,在ShuffleNetV2 第一阶段到 ShuffleNetV2 第二阶段和ShuffleNetV2 第二阶段到 ShuffleNetV2 第三阶段过程中,建立从Fast 分支流向 Slow 分支的横向连接;利用3D卷积对Fast分支特征进行尺度转换,将转换后的特征,级联拼接到Slow路径上;

S34:在ShuffleNetV2第三阶段之后,利用全局平均池化层和全连接层,构建模型分类器模块,进行分类和预测,并将构建好的轻量化Slowfast模型称为ShuffleNetV2_SlowFast网络;

S4:根据不同场景中不同人员类别身份,建立不同人员类别异常行为动作标签库和训练行为动作标签库;

S5:将步骤S4中建立的训练行为动作标签库进行预处理,然后输入到构建的轻量化SlowFast网络中进行训练;

S6:利用轻量化SlowFast网络训练好的检测模型对实际场景进行行为识别检测:利用人脸识别模型进行身份确认,确定其所属人员类别;采用训练好的轻量化SlowFast网络检测行为动作,并进行人员位置定位;建立人脸检测框与人员位置定位框的关联关系;根据人员类别行为要求,将轻量化SlowFast网络检测到的行为动作与该类人员行为动作标签库进行比对,进一步判断是否存在该类人员不应有的异常行为,并对其异常行为进行警报和处罚。

2.根据权利要求1所述的复杂场景下实时视频多人行为识别方法,其特征在于,步骤S3中,构建轻量化SlowFast 网络,具体包括:在构建轻量化SlowFast 网络时依据3D‑ShuffleNetV2网络结构,对SlowFast的Slow分支3D‑ResNet50主干网络进行替换;替换过程中根据Slow分支低帧频的特点,对输入的视频帧按每16帧进行一次采样,并不对时序维度进行下采样计算,来构建新的Slow分支网络结构;对Fast分支高帧频,低通道能力的特点,对输入的视频帧按每2帧进行一次采样,并不对时序维度进行采样,同时通道数按Slow分支的1/8倍,来构建Fast分支;最后,采用3D卷积操作对Fast分支特征进行尺度转换,再级联到Slow分支中,实现SlowFast的横向连接。

3.根据权利要求1所述的复杂场景下实时视频多人行为识别方法,其特征在于,步骤S5中,训练轻量化SlowFast网络,具体包括:首先从S4建立的训练行为动作标签库的训练集中,循环输入一组视频数据并随机采样一个片段clip;按比例缩放,每一帧随机裁剪出相同尺度的视频帧,再对其进行预处理操作,然后将预处理后的视频帧片段分别输入到ShuffleNetV2_SlowFast网络Slow分支和Fast分支网络;并对Slow分支网络和Fast分支网络进行级联聚合将Slow分支网络和Fast分支聚合后的特征,通过 ShuffleNetV2_SlowFast Head 模块,进行分类和计算损失值;执行指定训练轮回次数,完成轻量化ShuffleNetV2_SlowFast网络模型的训练。

4.根据权利要求1所述的复杂场景下实时视频多人行为识别方法,其特征在于,步骤S6中,利用轻量化SlowFast网络训练好的检测模型对实际场景进行行为识别检测,具体包括以下步骤:S61:在检测过程阶段,先使用步骤S2中训练好的人脸识别模型进行人脸识别,确定人员类别身份;采用轻量化SlowFast网络检测行为动作,并进行人员位置定位;建立人脸检测框与人员位置定位框的关联关系;再根据不同场景下,不同类别人员的行为动作要求,建立所识别人员与其所属类别行为动作要求之间的映射关系;将ShuffleNetV2_SlowFast网络检测到的行为动作与该类人员行为动作标签库特征向量进行度量计算;若余弦距离小于阈值K,则所识别人员存在该类人员不应有的异常行为,并记录到服务器日志中,对其异常行为发出警报,便于监测和处罚;

S62:度量计算;

根据该类别人员要求行为动作的特征,与基于ShuffleNetV2_SlowFast模型提取得到的动作特征,利用余弦距离公式进行度量计算。

5.适用于权利要求1 4中任意一项所述的复杂场景下实时视频多人行为识别方法的识~

别系统,其特征在于,该系统包括:

信息采集模块:利用音视频解码器将采集到的视频信息转化成数字信号传输到处理器;

处理器:用于处理信息采集模块传入的信号,并将处理完的信息通过局域网传递到服务器;

存储模块:用于保存处理器处理的数字信息;

服务器:处理处理器传入的信息,并用于运行FaceNet人脸识别模型和轻量化ShufffleNetV2_SlowFast动作识别模型,并给出场景下不同人员的行为动作的分析判断结果和警报。