利索能及
我要发布
收藏
专利号: 2019104225596
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视频行为识别方法,其特征在于,包括:

获取待识别视频;

从所述待识别视频中提取出多帧视频图像;

将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;

其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层,所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理,所述第一处理层和第二处理层之间的处理逻辑如下:获取所述第一处理层输出的四维矩阵格式的第一图像处理数据,所述第一处理层用于接收上一个处理层输出的图像处理数据,对接收到的图像处理数据执行卷积处理,得到所述第一图像处理数据;

对所述第一图像处理数据进行矩阵的平铺处理,获得二维矩阵格式的第二图像处理数据;

对所述第一图像处理数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据;

将所述第三图像处理数据和所述第二图像处理数据相乘,获得二维矩阵格式的第四图像处理数据;

对所述第四图像处理数据进行矩阵的逆平铺处理,得到四维矩阵格式的第五图像处理数据;

将所述第五图像处理数据输入所述第二处理层,所述第二处理层用于对所述第五图像处理数据执行卷积处理,然后将处理后的数据输入下一个处理层。

2.根据权利要求1所述的视频行为识别方法,其特征在于,所述对所述第一图像处理数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据包括:将所述第一图像处理数据和预先构建的第一卷积矩阵相乘后,执行矩阵的平铺处理,得到二维矩阵格式的第六图像处理数据;

将所述第一图像处理数据和预先构建的第二卷积矩阵相乘后,执行矩阵的平铺处理并转置,得到二维矩阵格式的第七图像处理数据,所述第一卷积矩阵和所述第二卷积矩阵均为1*1*1的卷积核,且具有不同的元素值;

将所述第六图像处理数据和所述第七图像处理数据相乘,获得二维矩阵格式的所述第三图像处理数据。

3.根据权利要求1所述的视频行为识别方法,其特征在于,所述目标神经网络模型为RsesNet101模型,所述第一处理层为RsesNet101模型网络结构第四部分的最后一层处理层,所述第二处理层为RsesNet101模型网络结构第五部分的第一层处理层。

4.根据权利要求1所述的视频行为识别方法,其特征在于,所述从所述待识别视频中提取出多帧视频图像包括:将所述待识别视频的分辨率转换为预设的分辨率;

根据所述待识别视频的视频长度选取第一数量的时间点;

以每个所述时间点为起始点,分别从所述待识别视频中提取连续的多帧视频图像,得到所述第一数量的视频图像组,每个所述视频图像组包括第二数量的视频图像;

对所述视频图像组包含的每帧视频图像进行剪切,截取预设区域内的图像;

从每个所述视频图像组包含的剪切后的视频图像中分别选取第三数量的视频图像,作为提取到的视频图像。

5.根据权利要求4所述的视频行为识别方法,其特征在于,所述获得所述目标神经网络模型输出的行为识别结果包括:通过所述目标神经网络模型分别获得每个所述视频图像组的行为识别结果,获取到的行为识别结果包括各个预设行为的匹配度;

计算各个所述视频图像组的行为识别结果的加权平均值,加权的权重根据各个所述视频图像组所对应的所述时间点确定;

将所述加权平均值中匹配度最高的行为确定为所述待识别视频的行为识别结果。

6.根据权利要求1至5中任一项所述的视频行为识别方法,其特征在于,所述目标神经网络模型通过以下步骤训练得到:采用kinetics数据集训练得到初始神经网络模型;

从预先选取的样本视频中提取样本视频图像,所述样本视频的行为识别结果是已知的;

将所述样本视频图像输入所述初始神经网络模型,得到样本行为识别结果;

将所述样本行为识别结果和所述样本视频的行为识别结果进行比较,并根据比较的结果修正所述初始神经网络模型的参数,重复迭代直至所述样本行为识别结果和所述样本视频的行为识别结果之间的差别小于预设阈值;

将参数修正完毕的所述初始神经网络模型确定为所述目标神经网络模型。

7.根据权利要求6所述的视频行为识别方法,其特征在于,所述从预先选取的样本视频中提取样本视频图像包括:将所述样本视频的分辨率转换为预设的分辨率;

根据所述样本视频的视频长度选取第四数量的样本时间点;

以每个所述样本时间点为起始点,分别从所述样本视频中提取连续的多帧视频图像,得到所述第四数量的样本视频图像组,每个所述样本视频图像组包括第五数量的视频图像;

对所述样本视频图像组包含的每一帧视频图像分别按照左边界对齐、中部对齐和右边界对齐的方式剪切为3个视频图像;

从每个所述样本视频图像组包含的剪切后的视频图像中分别选取第六数量的视频图像,作为提取到的样本视频图像。

8.一种视频行为识别装置,其特征在于,包括:

视频获取模块,用于获取待识别视频;

视频图像提取模块,用于从所述待识别视频中提取出多帧视频图像;

行为识别模块,用于将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;

其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层,所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理,所述第一处理层和第二处理层之间的处理逻辑如下:获取所述第一处理层输出的四维矩阵格式的第一图像处理数据,所述第一处理层用于接收上一个处理层输出的图像处理数据,对接收到的图像处理数据执行卷积处理,得到所述第一图像处理数据;

对所述第一图像处理数据进行矩阵的平铺处理,获得二维矩阵格式的第二图像处理数据;

对所述第一图像处理数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据;

将所述第三图像处理数据和所述第二图像处理数据相乘,获得二维矩阵格式的第四图像处理数据;

对所述第四图像处理数据进行矩阵的逆平铺处理,得到四维矩阵格式的第五图像处理数据;

将所述第五图像处理数据输入所述第二处理层,所述第二处理层用于对所述第五图像处理数据执行卷积处理,然后将处理后的数据输入下一个处理层。

9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的视频行为识别方法的步骤。

10.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:获取待识别视频;

从所述待识别视频中提取出多帧视频图像;

将所述多帧视频图像输入预先训练完成的目标神经网络模型,获得所述目标神经网络模型输出的行为识别结果;

其中,所述目标神经网络模型包括第一处理层和第二处理层,所述第一处理层和所述第二处理层为所述目标神经网络模型的网络结构中相邻的两个卷积层,所述目标神经网络将所述多帧视频图像转换为四个维度的图像数据进行处理,所述第一处理层和第二处理层之间的处理逻辑如下:获取所述第一处理层输出的四维矩阵格式的第一图像处理数据,所述第一处理层用于接收上一个处理层输出的图像处理数据,对接收到的图像处理数据执行卷积处理,得到所述第一图像处理数据;

对所述第一图像处理数据进行矩阵的平铺处理,获得二维矩阵格式的第二图像处理数据;

对所述第一图像处理数据进行卷积处理后,执行矩阵的平铺处理,获得二维矩阵格式的第三图像处理数据;

将所述第三图像处理数据和所述第二图像处理数据相乘,获得二维矩阵格式的第四图像处理数据;

对所述第四图像处理数据进行矩阵的逆平铺处理,得到四维矩阵格式的第五图像处理数据;

将所述第五图像处理数据输入所述第二处理层,所述第二处理层用于对所述第五图像处理数据执行卷积处理,然后将处理后的数据输入下一个处理层。