利索能及
我要发布
收藏
专利号: 2020105305016
申请人: 江南大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,步骤如下:

步骤一、获取RGB帧:对于数据集中的每个视频进行取帧处理,获得RGB原始帧N+1为视频总帧数;

步骤二、计算光流图:应用TVL1算法对按时序排序的RGB原始帧frgb两两进行计算得到光流图步骤三、将视频在时间尺度上分为k段:按时间顺序将RGB原始帧frgb及光流图fopt各分为等长的k份,分别为 和 其中j={1,

2,…,k}, floor(·)表示向下取整函数,N0=0;

步骤四、构建包括k个并行时间分段网络在内的多时间分段融合网络,每个分段网络包括一个空间流网络、一个时间流网络和一个融合流网络;

步骤五、对每个分段融合网络分别计算空间流预测概率分布:针对第k个时间分段融合网络,从第k段视频原始帧 中随机选取一帧RGB图片输入双流网络中的空间流网络中,从空间流网络中最后M个卷积模块输出中得到多层空间特征 空间流网络最后输出的结果就是空间流预测概率分布步骤六、对每个分段融合网络分别计算时间流预测概率分布:针对第k个时间分段融合网络,从第k段视频光流图 中选取时间上对应于步骤五中RGB图片的连续五张光流图片,输入双流网络中的时间流网络中,从时间流网络中最后M个卷积模块输出中得到多层时间特征 时间流网络最后输出的结果就是时间流预测概率分布步骤七、时空特征融合:使用M个多径压缩双线性融合模块DCBF分别融合M对时间流网络、空间流网络对应层特征,得到M个压缩时空特征;

步骤八、多径特征融合:使用多径压缩双线性融合模块DCBF融合M个压缩时空特征得到多径压缩时空特征;

所述步骤七、步骤八中多径压缩双线性融合模块DCBF的具体设计为:输入数据为空间流网络特定层的空间特征和时间流网络对应的时间特征;首先使用压缩双线性算法对对应的空间特征、时间特征进行采样,实现时间特征、空间特征的降维和双线性融合,再经过一个卷积核为1×1的卷积层和一个卷积核为3×3的卷积层,两个卷积层后面都分别接着一个归一化模块BN层和激活函数RuLU函数;

步骤九、使用注意力机制增强多径压缩时空特征:使用多尺度通道‑空间注意力模块对多径压缩时空特征进行特征权重调整,最后经过全局平均采样层和全连接层,得到融合流预测概率分布所述步骤九中多尺度通道‑空间注意力模块CSA的具体设计方法为:多尺度通道‑空间注意力模块由卷积块注意力模块CBAM改进而来,改进点有两点:1)将空间注意力分支和通道注意力分支由序列连接改为了平行连接的方式;2)将CBAM中空间注意力中的单个卷积核改为多个不同的卷积核,确保赋予得到的特征的不同位置具有不同的感受野,并且根据特征的最大尺度,选用不同卷积核;

步骤十、重复上述步骤五到步骤九k次获得对应视频不同时间分段的k段预测结果步骤十一、计算空间流最终预测概率分布Pspa、时间流最终预测概率分布Ptem和融合流最终预测概率分布Pfus:对三个流的各个时间分段结果进行融合,计算方法为加和平均;

所述步骤十一中空间流最终预测概率分布Pspa的具体计算方法为:对视频时间尺度上各分段的空间流预测结果计算平均,计算公式为: 时间流最终预测概率分布Ptem的具体计算方法为:对视频时间尺度上各分段的时间流预测结果计算平均,计算公式为: 融合流最终预测概率分布Pfus的具体计算方法为:对视频时间尺度上各分段的融合流预测结果计算平均,计算公式为:步骤十二、计算加权融合三个流的预测概率分布P:使用加权平均融合方法对三个最终预测概率分布进行融合。

2.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,所述的空间流网络和时间流网络使用的是InceptionV3网络,融合流网络使用的多层特征来自于InceptionV3的顶层第10层网络、中间层第9层网络和中间层第8层网络。

3.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,所述步骤六中时间流预测概率分布 的具体计算方法为:将与RGB单帧对应的多帧连续光流图片数据输入时间流网络中,经过时间流网络的多层卷积计算,并通过网络中最终全局平均采样计算和一个全连接层的计算,时间流网络将输出 数据 每一个维度给出对应动作分类的概率预测。

4.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,上述方法中步骤十二中的预测概率分布P的具体计算方法为:对空间流最终预测结果、时间流最终预测结果和融合流最终预测结果进行加权平均,计算公式如下

5.根据权利要求1所述的基于多径时空特征强化融合的三支流网络行为识别方法,其特征在于,上述方法中,网络的训练过程包括三个步骤:步骤一:对仅包括时间流和空间流的基础双流网络进行训练;

步骤二:冻结基础双流网络的参数,对融合流网络进行训练;

步骤三:解冻基础双流网络的参数,对三个流一起训练。