利索能及
我要发布
收藏
专利号: 202111572410X
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于SimAM注意力机制的行为识别方法,其特征在于,包括:对输入视频进行采样,随机抽取样本特征图,样本特征图包括:单帧的第一视频图像和连续若干帧的第二视频图像,对样本特征图进行缩放与裁剪;

对第一视频图像进行三原色通道分解,获得三原色通道图像;对第二视频图像进行计算堆叠的光流;

将三原色通道图像的单帧输入空间流CNN提取空间流特征图,将堆叠的光流输入时间流CNN提取时间流特征图;

计算空间流CNN与时间流CNN的SimAM注意力,并与相应的空间流特征图和时间流特征图分别融合成对应的空间流注意力融合特征图和时间流注意力融合特征图;

对于含有更多高层特征的输入视频,将空间流注意力融合特征图和时间流注意力融合特征图融合的双流注意力融合特征图输入全连接层分类,其输出值输入softmax函数求解最终的行为识别结果;其中,所述含有更多高层特征表现为单帧输入视频分辨率大于

1080p;

对于含有更多低层特征的输入视频,在空间流CNN将空间流注意力融合特征图输入全连接层分类,在时间流CNN上将时间流注意力融合特征图输入全连接层分类,两网络输出值采用均值融合后输入softmax函数求解最终的行为识别结果。

2.根据权利要求1所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,所述对样本特征图进行缩放与裁剪包括:将样本特征图缩放至大小为N*N,再对样本特征图进行随机裁剪至大小为N′*N′,其中:N表示图像的像素大小,N′表示随机裁剪后图像的像素大小。

3.根据权利要求2所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,所述三原色通道图像获取方法包括:将缩放与裁剪后的第一视频图像分解为红、绿、蓝三个通道,获得三个通道下的图像Xz(x,y),其中,z代表第z通道,z为大于等于1小于等于3的整数,第1、第2、第3通道分别代表红、绿、蓝三个通道;

x为图像中像素点的横向坐标,y为图像中像素点的纵向坐标。

4.根据权利要求2所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,所述计算堆叠的光流包括:所述的光流视为连续帧t和t+1之间的一组位移矢量场;记第t帧中的点(u,v),第t帧的光流为Iτ,其计算公式如下:其中:h∈[1,w],v∈[1,h],k∈[1,L];w为第二视频图的宽度,h为第二视频图的高度,L为第二视频图像的帧数,k为帧的偏移序号,最终得到N′*N′*2L的堆叠的光流。

5.根据权利要求2所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,提取空间流特征图或提取时间流特征图包括以下步骤:步骤1:对输入的三原色通道图像或者堆叠的光流执行填充操作,从N′*N′扩充至(N′+

7)*(N′+7),扩充部分以0值填充;再使用7*7*96的卷积核,以步长为2分别对三原色通道图像或者堆叠的光流执卷积生成特征图;

步骤2:使用ReLU对步骤1中生成的特征图进行线性整流,其中ReLU函数的公式为:ReLU(m)=max(0,m)

其中m为自变量;

步骤3:对经过线性整流的特征图进行最大池化操作,池化大小为2*2;

步骤4:对步骤3生成的特征图进行卷积,设置卷积核大小为5*5*256,步长为2,池化大小为2*2;

步骤5:对步骤4生成的特征图进行卷积,设置卷积核大小为3*3*512,步长为1;

步骤6:对步骤5生成的特征图进行卷积,设置卷积核大小为3*3*512,步长为1;

步骤7:对步骤6生成的特征图进行卷积,设置卷积核大小为3*3*512,步长为1,池化大小为2*2;

将得到的512张空间流特征图Sp视为512个通道,其中:p∈[1,512],每个Sp有(N′/32)*(N′/32)个神经元;

将得到的512张时间流特征图Sq视为512个通道,其中:q∈[1,512],每个Sq有(N′/32)*(N′/32)个神经元。

6.根据权利要求5所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,计算空间流CNN与时间流CNN的SimAM注意力,并与相应的空间流特征图Sp和时间流特征图Sq分别融合成空间流注意力融合特征图S′p和时间流注意力融合特征图S′q具体包括以下步骤:空间流CNN与时间流CNN的SimAM注意力计算:计算每个神经元的能量函数er:

其中,r表示单个输入通道中的目标神经元;qi表示输入通道中的其他神经元,i为序号;

wr权重的线性转换;br是偏置的线性转换;M=(N′/32)*(N′/32)是该通道上的其他神经元数量;γ为变量;λ为系数;

计算得出wr:

计算得出br:

μr表示平均值,计算得出μr:

2 2

σr表示方差,计算得出σr:

计算最小神经元能量

最小神经元能量的倒数 为该神经元的权重;

一个神经元对应一个神经元能量 单个通道的所有神经元的能量组成该通道的能量矩阵E,该通道的注意力权重矩阵E′由能量矩阵E中各元素取倒数后经过sigmoid函数归一化后得到,其计算公式为:空间流CNN与时间流CNN的SimAM注意力分别与空间流特征图和时间流特征图分别融合包括:融合后的特征图S′,其计算公式为:

S′=S·E′

其中,S表示空间流特征图Sp或者空间流特征图Sq中一种,S′表示空间流注意力融合特征图S′p或者时间流注意力融合特征图S′q中一种。

7.根据权利要求6所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,空间流注意力融合特征图和时间流注意力融合特征图融合的双流注意力融合特征图包括以下步骤:对空间流注意力融合特征图S′p和时间流注意力融合特征图S′q进行级联融合:其中: 为空间流网络输出的特征图S′p上位置(i,j,d),s表示空间, 为其对应的时间流网络输出的特征图S′q上位置(i,j,d),t表示时间, 为级联融合得到特征图上的位置(i,j,2d), 为级联融合得到特征图上的位置(i,j,2d‑1),d表示第d张特征图;

得到级联融合特征图:大小为(N′/32)*(N′/32)*1024;对上述级联融合特征图逐次进行三层卷积,卷积核大小分别为3*3*512、3*3*1024、1*1*512,得到双流注意力融合特征图Sd的大小为(N′/32)*(N′/32)*512。

8.根据权利要求7所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,全连接层分类为:T

output=f(wA+b)

其中w为权值向量,T表示转置,A为输入向量,b为偏置向量,output维度为H*1;输入向量A为双流注意力融合特征图Sd、时间流注意力融合特征图S′q或者空间流注意力融合特征图S′p中的一种;

output为空间流网络模型输出s_output或者时间流网络模型输出t_output或者双流网络模型输出d_output中的一种。

9.根据权利要求8所述的一种基于SimAM注意力机制的行为识别方法,其特征在于,求解最终的行为识别结果具体包括:softmax函数表达式为:

其中:outputi表示output中第i个元素,outputk表示output中第k个元素,P表示概率,exp()表示以自然对数e为底数的指数函数;H为元素数量;

送入softmax的output为d_output,或者s_output与t_output的均值;

H个元素中概率最大的元素所对应的行为分类标签即为最终的行为识别结果。

10.根据权利要求1所述的一种基于SimAM注意力机制的行为识别方法,其特征在于:所述空间流CNN或空间流CNN采用随机梯度下降算法训练;

计算输出层的梯度, 表示输出层(第K层)第k个节点的梯度,其计算公式如下:其中ok表示第K层第k个节点的输出,tk表示第K层第k个节点的标签;

计算隐含层的梯度, 表示第I个隐含层第i个节点的梯度,其计算公式如下:其中oi表示第I个隐含层第i个节点的标签值, 表示第I个隐含层上一层(第J层)第i个节点的梯度,wab表示权值矩阵第a行第b列的值;并根据计算得到的梯度更新参数。