利索能及
我要发布
收藏
专利号: 2022103627156
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-07-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于视频多路径时空特征网络的动作识别方法,其特征在于:所述基于视频多路径时空特征网络的动作识别方法包括如下步骤:S1、获取待识别的视频,根据帧率从视频中抽取若干张图像并对图像进行预处理;

S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像,形成多个图像序列;

S3、建立时空特征网络模型,所述时空特征网络模型包括多个特征提取模块,各所述图像序列一一对应输入至所述特征提取模块,所述特征提取模块执行如下操作:N×T×C×H×W

S31、获取对应图像序列的中间特征X∈R ,其中,N为批尺寸,T为视频总帧数,C为图像的通道数,H为图像的高度,W为图像的宽度;

S32、将中间特征X均分为第一特征矩阵X0和第二特征矩阵X1,并计算差值X1‑X0作为差异N×(T/2)×C×H×W特征,其中,X0为中间特征X的前半部分,X1为中间特征X的后半部分,X0、X1∈R ;

S33、将差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征;

S34、将空间注意力特征与中间特征X点乘后再与中间特征X相加,获得空间特征图;

其中,空间特征图的计算公式如下:

Y=X+X·δ(MLP(Max(D(X))))

其中,D(X)=X1‑X0,Max为最大池化操作,MLP为第一多层感知机操作,δ为sigmoid操作;

S35、将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征图和第一平均池化特征图;

S36、将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第二最大池化特征图和第二平均池化特征图;

S37、将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图;

S38、将第二最大池化特征图、第二平均池化特征图和融合特征图分别经过sigmoid层对应获得第一池化信息图、第二池化信息图和第三池化信息图;

S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图,所述第四池化信息图与空间特征图点乘后再与空间特征图相加,输出时空特征矩阵;

S4、将各所述特征提取模块输出的时空特征矩阵聚合,输出特征向量;

S5、利用分类器对所述特征向量进行分类检测,以概率最高的类别作为检测结果。

2.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S1中,所述预处理为随机裁剪图像至宽高为[256,320]像素。

3.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S3中,所述时空特征网络模型包括2个特征提取模块。

4.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S37中,所述将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度,再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作,所述卷积层为

1D卷积层,所述squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。

5.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:所述第一多层感知机的缩减系数为r、放大系数为2r,所述第二多层感知机的缩减系数和放大系数均为r,r=16。

6.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法,其特征在于:步骤S4中,所述将各所述特征提取模块输出的时空特征矩阵聚合时,每个时空特征矩阵的权重比为1:1。