利索能及
我要发布
收藏
专利号: 2020108499916
申请人: 浙江理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-05-17
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:包括以下步骤:

1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;

2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;

3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;

混合卷积块包括MC‑RAN模块和加合层;MC‑RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层,所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成;

混合卷积块表达为:

Xt+1=Xt+W(Xt)

其中,Xt和Xt+1表示第t个MC‑RAN模块的输入和输出;Xt和Xt+1具有相同的特征维度,W代表加入注意力机制的混合卷积残差函数;

4)使用Softmax分类层对关键特征图进行分类。

2.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述步骤2)具体为:时间抽样:对于每个动作视频,随机采样16帧动作视频的连续帧进行训练;如果连续帧的帧数达不到16帧,就循环播放该动作视频,直至连续帧的帧数达到16帧;

随机裁剪:将原始视频帧图像的大小调整为128×171像素,然后将原始视频帧图像的大小随机裁剪为112×112像素;

亮度调整:随机调整原始视频帧图像的亮度。

3.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述步骤3)具体为:选取3DResNet网络结构作为基本网络结构,3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替;混合卷积块的输入Xt输入MC‑RAN模块,MC‑RAN模块输出后的特征图与输入Xt通过加合层进行特征图相加,相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出Xt+1,每个混合卷积块之后级联3D最大池化层进行下采样;

第i个尺寸为Ni‑1×t×d×d的3D卷积层由Mi个尺寸为Ni‑1×1×d×d的第二2D卷积层和Ni个尺寸为Mi×t×1×1的时序卷积层组成,Mi由以下公式计算:其中,d表示3D卷积层输出特征图的宽高尺寸参数,t表示时刻时序,[]表示向下取整。

4.根据权利要求3所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述(2+1)D卷积层主要由第一2D卷积层、空间注意力模块MSS、时间卷积层和通道注意力模块MCS级联构成,由空间注意力模块MSS和通道注意力模块MCS构成了注意力模块;

空间注意力模块MSS通过第三2D卷积层来获取输入特征图在空间维度上的空间权重图WSS;通道注意力模块MCS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图WCS;

所述空间注意力模块MSS的构建具体为:当输入特征图F的大小为C×H×W时,C代表输入特征图中每一帧图像的通道数,H和W代表输入特征图中每一帧图像的宽高尺寸参数;首先,利用全局平均池化对输入特征图中每一帧图像的通道进行压缩,生成一个大小为1×H×W的2D空间描述符Z;之后使用第三2D卷积层对2D空间描述符Z进行卷积获取到输入特征图中的感兴趣目标区域;最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换,获得空间注意力权重图WSS;

空间注意力权重图WSS可表示为:

7′7

WSS(F)=BN(σ(f (Avgpool(F)))

7×7

其中,BN()表示批量归一化,σ()表示是sigmoid激活函数,f ()表示卷积核大小为7×7的卷积操作,Avgpool()表示全局平均池化,F表示输入的特征图;

所述通道注意力模块MCS的构建具体为:当输入特征图Q的大小为C×H×W,C代表输入特征图中每一帧图像的通道数,首先,对输入特征图Q进行全局平均池化操作,产生一个大小为1×1×C的通道向量Q';随后,使用多层感知器对通道向量Q'进行处理,以学习通道向量Q'的权重;

通道向量Q'可由如下公式计算:

其中F(i,j)表示在坐标(i,j)的特征图,i表示在H维度的像素点,j表示在W维度的像素点;

最后在多层感知器后增加第四批量归一化层来进行维度转换,获得通道注意力权重图WCS;

通道注意力权重图WCS可表示为:

WCS(F)=BN(MLP(Avgpool(F)))=BN(σ(W1(δ(W0Avgpool(F)+b0)+b1)))其中,MLP()表示带有隐藏层的多层感知器,W0和W1是MLP()的权重,大小分别为C/r×C和C×C/r,r是压缩比,δ()是线性修正单元,b0和b1表示MLP()的偏置项,大小分别为C/r和C。

5.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述的步骤4)具体为:视频帧图像经过四个MC‑RAN模块后视频帧图像中的时空特征已经融合,混合卷积残差网络模型获取了关键特征,将关键特征图输入到Softmax层中进行分类。

6.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述的输入特征图在第一个MC‑RAN模块中的输入特征图是步骤2)中的视频帧图像经过第一卷积层后的输出特征图,在后续的MC‑RAN模块中的输入特征图是前一个MC‑RAN模块的输出经过3D最大池化层后的输出特征图。