利索能及
我要发布
收藏
专利号: 2019110260949
申请人: OPPO广东移动通信有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视频分类模型的训练方法,其特征在于,所述方法包括:获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;

对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;

将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;

根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。

2.根据权利要求1所述的方法,其特征在于,所述对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的视频帧进行分段,得到所述视频的至少两个视频片段,包括:对所述长视频数据集中的视频按照预设频率进行时间维度的下采样,得到所述视频的抽样视频帧序列;

对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。

3.根据权利要求2所述的方法,其特征在于,所述对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段,包括:在随机数区间中为所述视频随机选择一个随机数作为分组数量;

按照所述分组数量对所述视频的抽样视频帧序列进行等分分段,得到所述视频的至少两个视频片段。

4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型,包括:对于所述短视频数据集中的每个视频片段,采用二维卷积网络进行特征提取,得到所述视频片段对应的二维卷积特征;

将所述视频片段对应的二维卷积特征输入至分类模型得到第一预测标签;

根据所述第一预测标签和所述视频片段对应的标签之间的误差,根据误差反向传播算法对所述分类模型进行训练,得到所述视频分类模型。

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取人工标注数据集,所述人工标注数据集包括样本视频片段和人工标注标签之间的对应关系;

对于所述人工标注数据集中的每个样本视频片段,采用二维卷积网络进行特征提取,得到所述样本视频片段对应的二维卷积特征;

将所述样本视频片段对应的二维卷积特征输入至所述视频分类模型,得到第二预测标签;

根据所述第二预测标签和所述样本视频片段对应的人工标注标签之间的误差,根据误差反向传播算法对所述视频分类模型进行微调训练,得到最终的所述视频分类模型。

6.一种视频分类方法,其特征在于,所述方法包括:

获取待分类的视频,所述视频的长度小于第二时长;

对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;

对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;

调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;

其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。

7.根据权利要求6所述的方法,其特征在于,所述对所述视频进行时间维度的下采样,将采样得到的抽样视频帧,包括:对所述视频按照预设频率进行时间维度的下采样,得到所述视频的抽样视频帧。

8.根据权利要求6所述的方法,其特征在于,所述调用视频分类模型对所述特征向量进行预测,得到所述视频的标签,包括:调用所述视频分类模型对所述特征向量进行预测,得到所述视频属于每种标签的概率;

当所述视频属于第i种标签的概率大于阈值时,将所述第i种标签确定为所述视频的标签。

9.一种视频分类模型的训练装置,其特征在于,所述装置包括:获取模块,用于获取长视频数据集,所述长视频数据集包括视频和标签之间的对应关系,所述视频的视频长度大于第一时长;

分段模块,用于对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段,得到所述视频的至少两个视频片段,所述视频片段的视频长度小于第二时长,所述第二时长不大于所述第一时长;

组合模块,用于将所述视频的至少两个视频片段和所述视频的标签进行组合,得到短视频数据集;

训练模块,用于根据所述短视频数据集对分类模型进行训练,得到所述视频分类模型。

10.一种视频分类装置,其特征在于,所述装置包括:

获取模块,用于获取待分类的视频,所述视频的长度小于第二时长;

下采样模块,用于对所述视频进行时间维度的下采样,将采样得到的抽样视频帧;

提取模块,用于对所述视频的所述抽样视频帧进行特征提取,得到所述视频的特征向量;

预测模块,用于调用视频分类模型对所述特征向量进行预测,得到所述视频的标签;所述视频分类模型是根据短视频数据集训练得到的;

其中,所述短视频数据集中的视频片段是对所述长视频数据集中的视频进行时间维度的下采样,将采样得到的抽样视频帧进行分段得到的,所述视频片段的长度小于第二时长,所述视频的长度大于第一时长,所述第二时长不大于所述第一时长。

11.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至5任一所述的视频分类模型的训练方法,或,如上权利要求6至8任一所述的视频分类方法。

12.一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上权利要求1至5任一所述的视频分类模型的训练方法,或,如上权利要求6至8任一所述的视频分类方法。