1.基于关键片段检测的事件识别方法,其特征是,包括:获取待识别视频;基于视频片段的显著性,从待识别视频中提取关键片段序列;
将关键片段序列输入到预先训练好的深度学习事件识别模型中,输出待识别视频中的事件类别;
所述深度学习事件识别模型,包括:空域缩放模块:将关键片段序列S中的每个片段在空域缩放到长宽相等的固定大小W×W;
3D CNN:3D CNN包含依次连接的卷积层、池化层、全连接层和Softmax层,将显著片段序列中的每个片段输入到3D CNN,从Softmax层输出片段的类别分值;
两个Softmax函数模块:将关键片段序列中的所有片段的显著性输入到其中一个Softmax函数模块进行归一化;
以归一化后的显著性为权值对关键片段序列中所有片段的类别分值进行加权求和得到视频的类别分值;
将视频类别分值输入到另一个Softmax函数模块进行归一化,得到归一化的视频类别分值。
2.如权利要求1所述的方法,其特征是,基于视频片段的显著性,从待识别视频中提取关键片段序列;具体步骤包括:
先按照设定的比例缩小输入待识别视频的空域尺寸;然后将视频分割成若干个设定长度的片段;再基于每个片段的颜色信息和运动信息,利用稀疏表示算法计算每个片段的显著性,按照显著性从大到小对片段进行排序,最后选取排序靠前的若干个片段组成关键片段序列。
3.如权利要求1所述的方法,其特征是,基于视频片段的显著性,从待识别视频中提取关键片段序列;具体步骤包括:
S11:按照设定的比例系数缩小输入视频V的空域尺寸得到视频V′;
S12:计算视频V′每一帧的光流得到视频每一帧每一个像素的运动特征;
S13:在时域,将视频V′分割成长度均为L的互不重叠的片段,将所有片段按时间顺序组成一个片段序列S′;
S14:对于片段序列S′中的每个片段,在空域将其分割成大小为s×s×L互不重叠的时空块,s×s为空域大小,L为时域长度;基于每个片段的运动特征和颜色特征,利用稀疏表示算法计算每一个时空块的显著性,通过求片段内所有时空块的显著性的均值得到当前片段的显著性;
S15:在时域,将输入视频V分割成长度为L的互不重叠的片段,所有片段按时间顺序组成一个片段序列S″;
S16:按照段序列S′的所有片段显著性由大到小的顺序,从片段序列S″中取出对应的设定数目的片段,按时间顺序将取出的片段组成关键片段序列S。
4.如权利要求3所述的方法,其特征是,S14中利用稀疏表示算法计算每一个时空块的显著性;具体步骤包括:
S141:将时空块内所有像素的光流向量化,得到运动向量;
将时空块内中间位置的帧所有像素的颜色值向量化,得到颜色向量;
将运动向量和颜色向量进行加权组合,得到时空块的信息向量;
S142:将除当前时空块之外的所有时空块的信息向量,按列排列成矩阵D,以D为字典求解目标函数,将当前时空块的信息向量xi表示成其他时空块的信息向量的稀疏表示;所述其他时空块是指除当前时空块之外的所有时空块;
目标函数:
其中,α为稀疏表示的系数;λ为平衡稀疏度和重构误差参数;
S143:利用稀疏表示的重构误差表示当前时空块的显著性
5.如权利要求4所述的方法,其特征是,所述时空块的信息向量获取方法为:S1411:将时空块内所有像素的水平方向和竖直方向的光流排列形成运动向量m=[u1 v1 u2 v2 … us×s vs×s];
S1412:将时空块内中间位置的帧由RGB空间转换到Lab颜色空间,将时空块内中间位置的帧内所有像素的Lab三个通道的值,按像素位置顺序排列构成颜色向量a=[L1 a1 b1 L2 a2 b2 … Ls×s×L as×s×L bs×s×L];
S1413:将运动向量乘以调节系数γ,颜色向量乘以调节系数(1‑γ),再级联形成时空T
块的信息向量x=[γm(1‑γ)a] ,其中0<γ<1,用于调节运动向量和颜色向量在块的信息表示中的重要性。
6.如权利要求1所述的方法,其特征是,预先训练好的深度学习事件识别模型,训练步骤包括:
构建深度学习事件识别模型;
利用已知事件类别的视频构建训练集,提取训练集中每个视频的关键片段序列;
训练过程采用多轮批量的方式,每一轮开始前利用随机的方法重新设置训练集中的视频顺序,每次从训练集中按序取一批视频,并将视频的关键片段序列输入到深度学习事件识别模型,利用交叉熵损失函数和随机梯度下降法修正模型参数,不断重复,直至训练数据集中所有视频都输入到模型,训练过程完成一轮;对模型进行一轮一轮的训练,直至达到预定的训练轮数为止,得到训练好的深度学习事件识别模型。
7.基于关键片段检测的事件识别系统,其特征是,包括:关键片段序列提取模块,其被配置为获取待识别视频;基于视频片段的显著性,从待识别视频中提取关键片段序列;
事件类别识别模块,其被配置为将关键片段序列输入到预先训练好的深度学习事件识别模型中,输出待识别视频中的事件类别;
所述深度学习事件识别模型,包括:空域缩放模块:将关键片段序列S中的每个片段在空域缩放到长宽相等的固定大小W×W;
3D CNN:3D CNN包含依次连接的卷积层、池化层、全连接层和Softmax层,将显著片段序列中的每个片段输入到3D CNN,从Softmax层输出片段的类别分值;
两个Softmax函数模块:将关键片段序列中的所有片段的显著性输入到其中一个Softmax函数模块进行归一化;
以归一化后的显著性为权值对关键片段序列中所有片段的类别分值进行加权求和得到视频的类别分值;
将视频类别分值输入到另一个Softmax函数模块进行归一化,得到归一化的视频类别分值。
8.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1‑6任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑6任一项方法所述的步骤。