利索能及
我要发布
收藏
专利号: 2024102700219
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于时空特征增强的实时时空行为检测方法,其特征在于,包括:将待检测的视频数据输入训练好的检测网络,得到实时时空行为检测结果;

其中,检测网络的训练包括:

步骤a:将原始视频截取为多个等时长的视频片段,将每个视频片段截取固定帧数的图像;

步骤b:对视频片段和其中的关键帧进行特征提取,得到时空特征 、空间分类特征和空间回归特征 ;

步骤c:将时空特征 划分为g组并分别输入到g个轻量时空扩张增强模块中,提取全局、低噪声的时空增强特征 ;

步骤d:将时空增强特征 进行上采样操作并与空间分类特征 、空间回归特征 在空间维度上对齐并连接,将连接后的特征输入多尺度特征融合模块中作为动作分类及定位的依据;

步骤e:优化损失函数,平衡动作识别与动作定位结果,加快网络收敛速度;

步骤f:重复步骤a至步骤e使得检测网络收敛,得到训练好的检测网络;

轻量时空扩张增强模块包括扩张模块和时空增强模块;将时空特征 划分为g组并分别输入到g个轻量时空扩张增强模块中,提取全局、低噪声的时空增强特征 ,包括:利用时空增强模块中的时间增强模块增强跨时间维度的信息交互,捕获时间帧中的关键信息;

利用扩张模块拓展特征图的感受野,增大网络输出特征图上的像素点,将像素点映射到输入视频图像上的区域大小,捕获全局的特征信息;

利用时空增强模块中的空间增强模块在空间维度上对跨通道的信息进行交互以及通道压缩,通过Softmax激活函数归一化获取空间位置上的对应权重并与原始特征相乘实现对特征在空间维度加权,捕获到一组分时空增强特征;

通过通道连接g个分组的分时空增强特征,得到时空增强特征 ;

其中,时间增强模块的表达式为:

式中, 为时空特征 输入轻量时空扩张增强模块中进行时空增强的一组原始特征,,指在增强过程中的信息, 为经过时间增强模块处理后得到的第一中间特征,~为全局平均池化, 和 分别表示卷积核大小为1和3的一维卷积, 为批归一化, 和 均为激活函数, 为维度变化函数, 表示逐元素相乘;

扩张模块的表达式为:

式中, 为经过扩张模块处理后得到的第二中间特征, 表示内核大小为3×

3、填充为1、组数为 、膨胀系数为1的膨胀卷积, 表示内核大小为3×3、填充为2、组数为 、膨胀系数为2的膨胀卷积, 表示内核大小为3×3、填充为3、组数为 、膨胀系数为3的膨胀卷积, 表示将特征图逐通道连接, 为 的通道数;

空间增强模块的表达式为:

,

式中, 为经过空间增强模块处理后得到的一组分时空增强特征, 为特征增强权重, 表示内核大小为3×3、填充为1、组数为 的2D卷积层,表示内核大小为3×3、填充为1的最大池化层, 是内核大小为1×1、输出通道数为1的逐点卷积, 为激活函数, 表示逐元素相加。

2.根据权利要求1所述基于时空特征增强的实时时空行为检测方法,其特征在于,每个视频片段的时长为15分钟;将每个视频片段截取固定帧数的图像,包括:对每个视频片段进行帧提取,每1秒提取30帧。

3.根据权利要求1所述基于时空特征增强的实时时空行为检测方法,其特征在于,对视频片段和其中的关键帧进行特征提取,得到时空特征 、空间分类特征 和空间回归特征 ,包括:使用预训练的目标检测主干网络提取视频片段中关键帧 的空间分类特征和空间回归特征 ;

使用预训练的视频检测主干网络对视频片段 提取时空特征;

i+2 i+2

其中,W、H分别为初始输入视频帧的宽、高, 、W/2 、H/2 分别为空间解耦特征的通道数、宽和高,i为分支数, 、T、W/32、H/32分别为 的通道数、时间维度大小以及宽和高,关键帧为每个视频片段的中间帧。

4.根据权利要求1所述基于时空特征增强的实时时空行为检测方法,其特征在于,将时空增强特征 进行上采样操作并与空间分类特征 、空间回归特征 在空间维度上对齐并连接,将连接后的特征输入多尺度特征融合模块中作为动作分类及定位的依据,包括:通过线性插值将时空增强特征 进行上采样并与空间分类特征 、空间回归特征在空间维度上对齐;

将空间分类特征 、空间回归特征 与上采样后的时空增强特征 分别沿通道维度进行连接得到连接后的特征 ;

将连接后的特征 输入多尺度特征融合模块中,通过多个DO‑Conv结构映射获得多尺度特征 并与低层次特征进行融合,得到多尺度融合的特征;

其中,多个DO‑Conv结构包括:

DO‑Conv结构一,包括一个卷积核大小为1×1的DO‑Conv卷积、组归一化GN和激活函数GELU,DO‑Conv结构一的表达式为:,

DO‑Conv结构二,包括两个卷积核大小分别为1×1和3×3的DO‑Conv卷积、组归一化GN和激活函数GELU,DO‑Conv结构二的表达式为:,

DO‑Conv结构三,包括两个卷积核大小为3×3的DO‑Conv卷积、组归一化GN和激活函数GELU,DO‑Conv结构三的表达式为:,

DO‑Conv结构四,包括三个卷积核大小为3×3的DO‑Conv卷积、组归一化GN和激活函数GELU,DO‑Conv结构四的表达式为:。

5.根据权利要求1所述基于时空特征增强的实时时空行为检测方法,其特征在于,优化损失函数,具体为:分类损失和置信度损失采用二进制交叉熵损失,回归损失采用SIoU损失;

其中,损失函数为:

式中, 、 、 分别为分类预测值、回归预测值和置信度预测值, 、、 分别为分类真实值、回归真实值和置信度真实值, 、 、 分别为分类损失、回归损失和置信度损失, 为正样本数, 为损失平衡因子, 在 时取值为1,反之取值为0。

6.根据权利要求1所述基于时空特征增强的实时时空行为检测方法,其特征在于,在对检测网络进行训练时,采用AdamW优化器以加速训练,初始学习率设置为0.00005,权重衰减为0.0005,批量大小设置为8;采用梯度累积策略,每16次迭代执行一次梯度更新;在前500次迭代中,采用线性预热策略。

7.一种基于时空特征增强的实时时空行为检测装置,其特征在于,包括:检测模块,用于将待检测的视频数据输入训练好的检测网络,得到实时时空行为检测结果;

其中,检测网络的训练包括:

步骤a:将原始视频截取为多个等时长的视频片段,将每个视频片段截取固定帧数的图像;

步骤b:对视频片段和其中的关键帧进行特征提取,得到时空特征 、空间分类特征和空间回归特征 ;

步骤c:将时空特征 划分为g组并分别输入到g个轻量时空扩张增强模块中,提取全局、低噪声的时空增强特征 ;

步骤d:将时空增强特征 进行上采样操作并与空间分类特征 、空间回归特征 在空间维度上对齐并连接,将连接后的特征输入多尺度特征融合模块中作为动作分类及定位的依据;

步骤e:优化损失函数,平衡动作识别与动作定位结果,加快网络收敛速度;

步骤f:重复步骤a至步骤e使得检测网络收敛,得到训练好的检测网络;

轻量时空扩张增强模块包括扩张模块和时空增强模块;将时空特征 划分为g组并分别输入到g个轻量时空扩张增强模块中,提取全局、低噪声的时空增强特征 ,包括:利用时空增强模块中的时间增强模块增强跨时间维度的信息交互,捕获时间帧中的关键信息;

利用扩张模块拓展特征图的感受野,增大网络输出特征图上的像素点,将像素点映射到输入视频图像上的区域大小,捕获全局的特征信息;

利用时空增强模块中的空间增强模块在空间维度上对跨通道的信息进行交互以及通道压缩,通过Softmax激活函数归一化获取空间位置上的对应权重并与原始特征相乘实现对特征在空间维度加权,捕获到一组分时空增强特征;

通过通道连接g个分组的分时空增强特征,得到时空增强特征 ;

其中,时间增强模块的表达式为:

式中, 为时空特征 输入轻量时空扩张增强模块中进行时空增强的一组原始特征,,指在增强过程中的信息, 为经过时间增强模块处理后得到的第一中间特征,~为全局平均池化, 和 分别表示卷积核大小为1和3的一维卷积, 为批归一化, 和 均为激活函数, 为维度变化函数, 表示逐元素相乘;

扩张模块的表达式为:

式中, 为经过扩张模块处理后得到的第二中间特征, 表示内核大小为3×

3、填充为1、组数为 、膨胀系数为1的膨胀卷积, 表示内核大小为3×3、填充为2、组数为 、膨胀系数为2的膨胀卷积, 表示内核大小为3×3、填充为3、组数为 、膨胀系数为3的膨胀卷积, 表示将特征图逐通道连接, 为 的通道数;

空间增强模块的表达式为:

,

式中, 为经过空间增强模块处理后得到的一组分时空增强特征, 为特征增强权重, 表示内核大小为3×3、填充为1、组数为 的2D卷积层,表示内核大小为3×3、填充为1的最大池化层, 是内核大小为1×1、输出通道数为1的逐点卷积, 为激活函数, 表示逐元素相加。

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述基于时空特征增强的实时时空行为检测方法的步骤。

9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述基于时空特征增强的实时时空行为检测方法的步骤。