利索能及
我要发布
收藏
专利号: 2021101168620
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于双流卷积注意力的动作识别方法,其特征在于,该方法首先获取包含动作类别标记的视频,然后进行以下操作:步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视RGB Flow

频的外观特征表示F 和运动特征表示F ;

RGB Flow

步骤(2).构建卷积注意力模块,输入为外观特征表示F 和动作特征表示F ,输出为通道注意力张量和时空注意力张量,对特征表示分别进行加权获得外观注意力特征表示和运动注意力特征表示

步骤(3).构建双流融合模块C,输入为外观注意力特征表示 和运动注意力特征表示RGB Flow

输出为外观双流特征表示Z 和运动双流特征表示Z ;

步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。

2.如权利要求1所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(1)具体是:

(1‑1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列 其中,N表示RGB帧图像总数目, 表示序列中第i幅、宽为w、高为h的RGB三通道图像;视频V包含动作类别标记 其中L为动作类别总数;v=10~30;

(1‑2).对RGB帧图像序列VRGB采用卢卡斯‑卡纳德方法计算,得到对应的光流图像序列Flow

fi 表示第i帧包含竖直方向与水平方向双通道的光流图像,(1‑3).将RGB帧图像序列VRGB和光流图像序列VFlow分别平均分成k段,并从各个段内随机采样m帧,得到其稀疏时间采样表示 和 其中 为m帧RGB图像组成的片段, 为m帧光流图像组成的片段;

(1‑4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征RGB Flow

提取器 分别提取S 对应的外观特征表示 和S 对应的运动特征表示其中, 和 分别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。

3.如权利要求2所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(2)具体是:

(2‑1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力模

3D 3D

块包括平均池化层Avgpool (·)、最大池化层Maxpool (·)和具有一个隐藏层的多层感

1D 1D

知机MLP(·);时空注意力模块包括平均池化层AvgPool (·)、最大池化层MaxPool (·)

7×7×7

和三维卷积层f (·);

RGB

(2‑2).采用(2‑1)方法对外观特征表示F 构建对应的外观卷积注意力模块 包括通道注意力模块 和时空注意力模块(2‑3).通道注意力模块 的输入为 输出为k段的c′个通道的通道注意力权重序列

其中,通道注意力权重

分别表示对特征图进

行三维时空平均池化操作和三维时空最大池化操作,MLP(·)由神经元数分别为c′、c′/2、c′的三层全连接层构成,σ(·)表示Sigmoid函数;

(2‑4).时空注意力模块 的输入为通道注意力权重序列 加权的特征图符号表示逐元素乘法操作;输出为时空注意力权重序列

其中,时空注意力权重

7×7×7

f (·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层, 分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维度上的拼接操作;

RGB

(2‑5).对外观特征表示F 使用通道注意力权重序列 和时空注意力权重序列加权得到外观注意力特征表示 其中, 表示外观注意力特征图,Flow

(2‑6).采用(2‑1)方法对运动特征表示F 构建对应的运动卷积注意力模块 其构建方式与外观卷积注意力模块 相同;由此得到运动注意力特征表示表示运动注意力特征图。

4.如权利要求3所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(3)具体是:

(3‑1).双流融合模块 用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;

(3‑2).双流融合模块 的输入为外观注意力特征表示 和运动注意力特征表示输出为外观双流特征表示 和运动双流特征表示其中, 和 分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图;

其中,特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、T

φ(·)、g(·)将注意力特征的通道维度降为c'/2,符号(·)表示向量或矩阵的转置操作,表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表示一个卷积核大小为1×1×1、输入通道数为 输出通道数为c'的三维卷积层,WZ(·)将特征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的相加操作。

5.如权利要求4所述的一种基于双流卷积注意力的动作识别方法,其特征在于,步骤(4)具体是:

RGB

(4‑1).对外观双流特征表示Z 中的各段外观双流特征图 进行三维时空平均池化,Flow

对运动双流特征表示Z 中的各段运动双流特征图 进行三维时空平均池化,

然后将其池化后的结果输入至由全连接层与Softmax层构成的输出层 中,得到各段的外观动作得分 和运动动作得分 和 均表示经过Softmax层归一化后的动作类别概率;

RGB

(4‑2).计算各段的外观动作得分R 的平均值,得到平均外观动作得分 计算Flow

各段的运动动作得分R 的平均值,得到平均运动动作得分 取 和 的平均,作为视频的最终动作得分(4‑3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵损失,利用随机梯度下降算法调整更新输出层 双流融合模块 外观卷积注意力模块 以及运动卷积注意力模块 的参数,完成动作识别模型的构建;

RGB

(4‑4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′ 和运动特征表示FFlow

′ ,并将其输入至动作识别模型获得动作得分 根据动作得分获得视频内容的动作类别 即 为R′中得分最高元素所对应的索引,完成动作识别任务。