1.基于帧间差分的暴力行为检测方法,其特征是,包括:将待检测视频的所有帧图像,均输入到预先训练好的第一卷积神经网络中,输出每一帧图像的外观特征;
所述将待检测视频的所有帧图像,均输入到预先训练好的第一卷积神经网络中,输出每一帧图像的外观特征;其中,预选训练好的第一卷积神经网络的训练步骤,包括:构建第一卷积神经网络;所述第一卷积神经网络采用VGG‑16模型;
构建第一训练集;所述第一训练集为:ImageNet数据集;
将第一训练集输入到第一卷积神经网络中,对第一卷积神经网络进行训练,当第一卷积神经网络的损失函数达到最小值时,停止训练,得到训练好的第一卷积神经网络;
所述外观特征,是指:直接将待检测视频的所有帧图像作为第一卷积神经网络输入,并从第一卷积神经网络的第一个全连接层得到的特征向量,即为外观特征;
利用帧间差分法对待检测视频进行处理,提取出若干个差分帧图像;将每一个差分帧图像,均输入到预先训练好的第二卷积神经网络中,输出每一个差分帧图像的动作特征;
所述利用帧间差分法对待检测视频进行处理,提取出若干个差分帧图像;具体步骤为:首先,将待检测视频的每一帧图像通过中值滤波处理;
然后,对中值滤波处理后的结果进行差分操作;
对中值滤波处理后的结果进行差分操作,具体公式为:
Dk(x,y)=|fk+1(x,y)‑fk(x,y)|视频的过滤完成后图像帧记为fi(x,y),这里的i=1,2,3…,n表示图像的帧数,Dk(x,y)表示差分后的图像;
然后,对差分操作后的图像帧进行二值化处理,得到差分帧图像;
所述对差分操作后的图像帧进行二值化处理;具体包括:其中,Tk(x,y)表示二值化后的图像,T为二值化的阈值;
最后,对待检测视频的所有帧图像进行处理,得到所有的差分帧图像;
将每一帧图像的外观特征输入到预训练的第一分类器中,输出当前帧图像的第一分类标签;
所述将每一个差分帧图像,均输入到预先训练好的第二卷积神经网络中,输出每一个差分帧图像的动作特征;预先训练好的第二卷积神经网络具体训练步骤为:构建第二卷积神经网络;所述第二卷积神经网络采用VGG‑16模型;
构建第二训练集;所述第二训练集为:ImageNet数据集的差分帧图像;
将第二训练集输入到第二卷积神经网络中,对第二卷积神经网络进行训练,当第二卷积神经网络的损失函数达到最小值时,停止训练,得到训练好的第二卷积神经网络;
所述动作特征,是指:将差分帧图像作为第二卷积神经网络的输入,并从第二卷积神经网络的第一个全连接层得到的特征向量,用以描述动作特征;
将每一个差分帧图像的动作特征输入到预训练的第二分类器中,输出当前差分帧图像的第二分类标签;
将第一分类标签和第二分类标签进行标签融合,输出当前帧图像的暴力行为检测结果;具体步骤为:对第一分类标签和第二分类标签进行加权融合,其中,LabelF表示标签融合结果;labela表示第一分类标签,labelm表示第二分类标签;
β为权重,δ是标签融合的阈值,δ的值为0.4,δ为融合加权系数,β的值越大对暴力行为检测的特征影响越大,β融合系数的值给定为0.5;如果f的数值大于阈值t的数值,则结果为1;
当存在暴力行为图像的帧数超过设定阈值时,则认为待检测视频存在暴力行为;
所述当存在暴力行为图像的帧数超过设定阈值时,则认为待检测视频存在暴力行为;
具体步骤为:
其中,T为取用视频的时长,阈值τ取自时间轴T中,且τ小于T,τ的值大于等于T/2 Label表示检测视频最终标签融合结果;
如果最终计算检测得到的暴力行为总时长小于τ,则这次检测的视频就会被判定为是非暴力的。
2.采用如权利要求1所述的基于帧间差分的暴力行为检测方法的基于帧间差分的暴力行为检测系统,其特征是,包括:外观特征提取模块,其被配置为:将待检测视频的所有帧图像,均输入到预先训练好的第一卷积神经网络中,输出每一帧图像的外观特征;
动作特征提取模块,其被配置为:利用帧间差分法对待检测视频进行处理,提取出若干个差分帧图像;将每一个差分帧图像,均输入到预先训练好的第二卷积神经网络中,输出每一个差分帧图像的动作特征;所述利用帧间差分法对待检测视频进行处理,提取出若干个差分帧图像;具体步骤为:首先,将待检测视频的每一帧图像通过中值滤波处理;
然后,对中值滤波处理后的结果进行差分操作;
然后,对差分操作后的图像帧进行二值化处理,得到差分帧图像;
最后,对待检测视频的所有帧图像进行处理,得到所有的差分帧图像;
第一分类模块,其被配置为:将每一帧图像的外观特征输入到预训练的第一分类器中,输出当前帧图像的第一分类标签;
第二分类模块,其被配置为:将每一个差分帧图像的动作特征输入到预训练的第二分类器中,输出当前差分帧图像的第二分类标签;
融合模块,其被配置为:将第一分类标签和第二分类标签进行标签融合,输出当前帧图像的暴力行为检测结果;具体步骤为:对第一分类标签和第二分类标签进行加权融合,其中,LabelF表示标签融合结果;labela表示第一分类标签,labelm表示第二分类标签;
β为权重,δ是标签融合的阈值,δ的值为0.4,δ为融合加权系数,β的值越大对暴力行为检测的特征影响越大,β融合系数的值给定为0.5;如果f的数值大于阈值t的数值,则结果为1;
输出模块,其被配置为:当存在暴力行为图像的帧数超过设定阈值时,则认为待检测视频存在暴力行为。
3.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1的方法所述的步骤。
4.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1的方法所述的步骤。