1.一种视频分类方法,其特征在于,包括:
将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果;
依据所述神经网络输出的分类结果确定所述视频帧序列的类别;
其中,所述N为小于所述视频帧序列长度的正整数,所述目标域至少包括空间域或时空域,所述时空域为时间域与空间域的联合。
2.如权利要求1所述的视频分类方法,其特征在于,所述神经网络包括至少一个第一关联层;
所述由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,包括:由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量,并将所述二维特征向量输出至与卷积子层对应的融合子层;
由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据,并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层;
由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括二维CNN层;所述N等于1。
3.如权利要求2所述的视频分类方法,其特征在于,由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据,包括:由非局部均值滤波子层遍历输入的视频帧中需滤波的目标像素;
由所述非局部均值滤波子层针对每个遍历到的目标像素,将该输入的视频帧中以该目标像素为中心的指定大小的区域确定为当前块,逐像素遍历该输入的视频帧并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的视频帧对应的空间域关联数据。
4.如权利要求1所述的视频分类方法,其特征在于,所述神经网络包括至少一个第一关联层;所述目标域为时空域;
由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,包括:由各个第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量,并将所述三维特征向量输出至与卷积子层对应的融合子层;
由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据,并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层;
由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括三维CNN层;所述N大于1且小于等于所述视频帧序列长度的一半。
5.如权利要求4所述的视频分类方法,其特征在于,由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据,包括:由非局部均值滤波子层遍历输入的N个视频帧所构成的时空三维数据体中需滤波的目标像素;
由非局部均值滤波子层针对每个遍历到的目标像素,在该时空三维数据体中以该目标像素为中心的指定大小的时空三维区域确定为当前块,逐像素遍历该时空三维数据体并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的N个视频帧对应的时空域关联数据。
6.如权利要求2‑5中任一项所述的视频分类方法,其特征在于,所述神经网络包括M个第一关联层;
其中,所述待分类处理的视频帧序列被分成M段输入至所述神经网络的各个所述第一关联层中;所述M大于1。
7.如权利要求1‑5中任一项所述的视频分类方法,其特征在于,由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果,包括:由所述神经网络的至少一个第一关联层对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量,并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量,将与每N个视频帧对应的第一关联特征向量输出至所述神经网络的第二关联层;
由所述神经网络的第二关联层对所有第一关联层输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量,将所述第二关联特征向量输出至所述神经网络的全连接层;
由所述神经网络的全连接层对所述第二关联层输出的第二关联特征向量执行分类处理,得到并输出分类结果。
8.如权利要求7所述的视频分类方法,其特征在于,所述第二关联层包括循环神经网络RNN层。
9.一种视频分类装置,其特征在于,包括:
分类处理模块,用于将待分类处理的视频帧序列输入至已训练的神经网络中,以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量,对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量,并对所述第二关联特征向量进行分类得到并输出分类结果;
分类确定模块,用于依据所述神经网络输出的分类结果确定所述视频帧序列的类别;
其中,所述N为小于所述视频帧序列长度的正整数,所述目标域至少包括空间域或时空域,所述时空域为时间域与空间域的联合。
10.如权利要求9所述的视频分类装置,其特征在于,所述神经网络包括至少一个第一关联层;
所述分类处理模块中,用于对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量的第一关联处理单元包括:第一特征提取子单元,用于由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量,并将所述二维特征向量输出至与卷积子层对应的融合子层;
第一目标域关联子单元,用于由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据,并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层;
第一融合处理子单元,用于由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括二维CNN层;所述N等于1。
11.如权利要求10所述的视频分类装置,其特征在于,第一目标域关联子单元执行由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据时具体用于:由非局部均值滤波子层遍历输入的视频帧中需滤波的目标像素;
由所述非局部均值滤波子层针对每个遍历到的目标像素,将该输入的视频帧中以该目标像素为中心的指定大小的区域确定为当前块,逐像素遍历该输入的视频帧并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的视频帧对应的空间域关联数据。
12.如权利要求9所述的视频分类装置,其特征在于,所述神经网络包括至少一个第一关联层;所述目标域为时空域;
所述分类处理模块中,用于对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量的第一关联处理单元包括:第二特征提取子单元,由各个第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量,并将所述三维特征向量输出至与卷积子层对应的融合子层;
第二目标域关联子单元,用于由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据,并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层;
第二融合处理子单元,用于由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理,得到并输出对应的第一关联特征向量;
其中,所述卷积子层包括三维CNN层;所述N大于1且小于等于所述视频帧序列长度的一半。
13.如权利要求12所述的视频分类装置,其特征在于,第二目标域关联子单元执行由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据时具体用于:由非局部均值滤波子层遍历输入的N个视频帧所构成的时空三维数据体中需滤波的目标像素;
由非局部均值滤波子层针对每个遍历到的目标像素,在该时空三维数据体中以该目标像素为中心的指定大小的时空三维区域确定为当前块,逐像素遍历该时空三维数据体并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块,计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重,将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和,将求和所得值确定为该目标像素滤波后的像素值;
由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的N个视频帧对应的时空域关联数据。
14.如权利要求10‑13中任一项所述的视频分类装置,其特征在于,所述神经网络包括M个第一关联层;
其中,所述待分类处理的视频帧序列被分成M段输入至所述神经网络的各个所述第一关联层中;所述M大于1。
15.如权利要求9‑13中任一项所述的视频分类装置,其特征在于,所述分类处理模块包括:第一关联处理单元,用于由所述神经网络的至少一个第一关联层对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量,并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量,将与每N个视频帧对应的第一关联特征向量输出至所述神经网络的第二关联层;
第二关联处理单元,用于由所述神经网络的第二关联层对所有第一关联层输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量,将所述第二关联特征向量输出至所述神经网络的全连接层;
分类处理单元,用于由所述神经网络的全连接层对所述第二关联层输出的第二关联特征向量执行分类处理,得到并输出分类结果。
16.如权利要求15所述的视频分类装置,其特征在于,所述第二关联层包括循环神经网络RNN层。
17.一种电子设备,其特征在于,包括处理器及存储器;所述存储器存储有可被处理器调用的程序;其中,所述处理器执行所述程序时,实现如权利要求1‑8中任意一项所述的视频分类方法。
18.一种机器可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现如权利要求1‑8中任意一项所述的视频分类方法。