1.一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于,方法包括如下步骤:对输入的视频分别进行较高频率、较低频率和中等频率采样,获得相应频率的视频帧并构成原始视频;将所述原始视频输入到基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别模型中,提取获得动作识别结果;所述PSC‑TNet视频动作识别模型包括基于不同帧间隔的三条分支和动作分类模块,三条分支分别为运动分支、外观分支和动作细节分支;其中,较高频率的视频帧作为包含运动信息的特征张量输入运动分支,较低频率的视频帧作为包含空间信息的特征张量输入外观分支,中等频率的视频帧作为包含动作细节信息的特征张量输入动作细节分支;所述运动分支、外观分支和动作细节分支均包含残差层,运动分支和动作细节分支中间输出的特征传递到外观分支并进行通道拼接融合,再输入外观分支的残差层;最终将三条分支输出的识别特征在通道上拼接融合后输入动作分类模块,获得最终动作分类结果。
2.根据权利要求1所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述PSC‑TNet视频动作识别模型中,所述运动分支和外观分支均包括依次连接的一个卷积块和连续四个包含空间特征增强模块PSC的残差层;所述动作细节分支包括依次相连的时间特征提取模块TtS、一个卷积块和连续四个时空特征融合模块,每个时空特征融合模块包含并联的一个时间特征提取模块TtS和一个包含空间特征增强模块PSC的残差层,所述时空特征融合模块的输入分别输入到时间特征提取模块TtS和残差层中获得各自的结果,将各自的结果相加融合后作为时空特征融合模块的输出;所述运动分支、外观分支和动作细节分支的四个残差层内分别按照传递顺序包含有三、四、六、三个残差模块;所述运动分支和所述动作细节分支的卷积块以及所述外观分支的卷积块在外观分支的通道上进行拼接后输入到所述外观分支的第一个残差层,所述运动分支和所述动作细节分支的第n个残差层以及所述外观分支的第n个残差层在外观分支的通道上进行拼接后输入到所述外观分支的第n+1个残差层。
3.根据权利要求2所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述残差模块包括第一卷积层、第二卷积层、第三卷积层、PSC‑T注意力机制模块和第四卷积层,第一卷积层、第二卷积层、第三卷积层和PSC‑T注意力机制模块依次连接,残差模块的输入分别输入到第一卷积层和第四卷积层中,PSC‑T注意力机制模块的输出和第四卷积层的输出经相加后作为残差模块的输出;所述第一卷积层和第二卷积层均主要由卷积操作、批归一化操作、激活操作依次连接构成,所述第三卷积层均主要由卷积操作、批归一化操作依次连接构成,所述第四卷积层均由一个卷积操作构成。
4.根据权利要求3所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述运动分支、外观分支和动作细节分支中残差层内的残差模块的PSC‑T注意力机制模块采用空间特征增强模块PSC。
5.根据权利要求2所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述时间特征提取模块包括依次进行的视频帧时间特征提取操作和若干个第五卷积层,视频帧时间特征提取操作是将每相邻两帧图像之间作差处理,之后作差结果输入到各自的一个第五卷积层中进行特征提取获得差分运动特征,将所有差分运动特征拼接融合后作为时间特征提取模块的输出;所述第五卷积层均主要由卷积操作构成。
6.根据权利要求2所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述空间特征增强模块PSC包括两个空间特征分支、相加操作、多个sigmoid激活函数和逐点相乘操作,所述空间特征增强模块PSC分别输入到两个空间特征分支中,两个空间特征分支分别为高感受野分支和低感受野分支,高感受野分支中的卷积层的卷积尺寸大小比低感受野分支的更大;每个空间特征分支拓扑结构均相同,均包括第六卷积层、第七卷积层、全局池化层、第一重构层、第二重构层和softmax激活函数,所述空间特征增强模块PSC的输入作为空间特征分支的输入并分别输入到第六卷积层、第七卷积层中,第六卷积层的输出依次经全局池化层、第一重构层、softmax激活函数后获得AA特征,第七卷积层的输出经第二重构层后获得BB特征,AA特征和BB特征作为空间特征分支的输出;
高感受野分支输出的AA特征和低感受野分支输出的BB特征通过矩阵相乘操作处理后输入到第一个sigmoid激活函数中,低感受野分支输出的AA特征和高感受野分支输出的BB特征通过矩阵相乘操作处理后输入到第二个sigmoid激活函数中,第一个sigmoid激活函数和第二个sigmoid激活函数的输出分别经各自的像素相加后输入到第三个sigmoid激活函数中,第三个sigmoid激活函数的输出和空间特征增强模块PSC的输入经逐点相乘操作后输出作为空间特征增强模块PSC的输出。
7.根据权利要求1所述的一种基于融合空间特征和帧差分信息的PSC‑TNet视频动作识别方法,其特征在于:所述动作分类模块包括依次相连的全局平均池化层、Dropout层和分类器,包含空间信息、运动信息和运动细节信息的识别特征作为全局平均池化层的输入,由分类器输出动作识别结果。
8.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1 7任一所述的方法。
~