利索能及
我要发布
收藏
专利号: 2021109248498
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-02-06
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种模型训练方法,包括:利用预先训练的视频分类模型,确定样本视频中各视频帧的视频分类结果;

根据各视频帧的视频分类结果以及所述样本视频中各视频帧的标注分类结果,确定所述样本视频中的显著帧;

基于所述显著帧,训练显著帧确定模型。

2.根据权利要求1所述的方法,其中,所述根据各视频帧的视频分类结果以及所述样本视频中各视频帧的标注分类结果,确定所述样本视频中的显著帧,包括:对于每个视频帧,响应于确定该视频帧的视频分类结果与该视频帧的标注分类结果一致,确定该视频帧为显著帧。

3.根据权利要求1所述的方法,其中,所述基于所述显著帧,训练显著帧确定模型,包括:

基于所述显著帧以及所述显著帧的标注分类结果,确定目标损失函数;

根据所述目标损失函数,训练显著帧确定模型。

4.根据权利要求3所述的方法,其中,所述基于所述显著帧以及所述显著帧的标注分类结果,确定目标损失函数,包括:根据所述显著帧,更新所述样本视频中各视频帧的标注分类标识;

将所述样本视频中的各视频帧输入所述显著帧确定模型,根据所述显著帧确定模型的输出确定各视频帧的预测分类标识;

根据所述预测分类标识以及更新的标注分类标识,确定目标损失函数。

5.根据权利要求4所述的方法,其中,根据所述显著帧,更新所述样本视频中各视频帧的标注分类标识,包括:

将所述样本视频中非显著帧的标注分类标识设置为预设数值;

响应于确定所述预设数值与更新前的标注分类标识重复,更新部分或全部显著帧的标注分类标识,以避免重复。

6.根据权利要求3所述的方法,其中,所述基于所述显著帧以及所述显著帧的标注分类结果,确定目标损失函数,包括:根据所述样本视频中的各视频帧,确定混叠帧;

根据得到所述混叠帧的视频帧的标注分类结果,确定与所述混叠帧对应的混叠分类结果;

根据所述显著帧、所述显著帧的标注分类结果、所述混叠帧以及所述混叠帧对应的混叠分类结果,确定目标损失函数。

7.根据权利要求6所述的方法,其中,所述根据所述样本视频中的各视频帧,确定混叠帧,包括:

对于所述样本视频中的每个视频帧,从样本视频中选取一个视频帧与该视频帧进行混叠,得到混叠帧。

8.根据权利要求6所述的方法,其中,所述根据得到所述混叠帧的视频帧的标注分类结果,确定与所述混叠帧对应的混叠分类结果,包括:更新各视频帧的标注分类结果对应的标注分类标识;

根据得到所述混叠帧的视频帧的更新的标注分类标识,确定所述混叠帧对应的混叠分类结果。

9.根据权利要求6所述的方法,其中,所述根据所述显著帧、所述显著帧的标注分类结果、所述混叠帧以及所述混叠帧对应的混叠分类结果,确定目标损失函数,包括:根据所述显著帧以及所述显著帧的标注分类结果,确定第一损失函数;

根据所述混叠帧以及所述混叠帧对应的混叠分类结果,确定第二损失函数;

根据所述第一损失函数以及所述第二损失函数,确定目标损失函数。

10.一种视频分类方法,包括:获取目标视频;

利用通过权利要求1‑9任一项所述的模型训练方法训练得到的显著帧确定模型确定所述目标视频的显著帧;

根据所述目标视频的显著帧以及预先训练的视频分类模型,确定所述目标视频的分类结果。

11.一种模型训练装置,包括:样本视频分类单元,被配置成利用预先训练的视频分类模型,确定样本视频中各视频帧的视频分类结果;

第一显著帧确定单元,被配置成根据各视频帧的视频分类结果以及所述样本视频中各视频帧的标注分类结果,确定所述样本视频中的显著帧;

模型训练单元,被配置成基于所述显著帧,训练显著帧确定模型。

12.根据权利要求11所述的装置,其中,所述第一显著帧确定单元进一步被配置成:对于每个视频帧,响应于确定该视频帧的视频分类结果与该视频帧的标注分类结果一致,确定该视频帧为显著帧。

13.根据权利要求11所述的装置,其中,所述模型训练单元包括:损失函数确定模块,被配置成基于所述显著帧以及所述显著帧的标注分类结果,确定目标损失函数;

模型训练模块,被配置成根据所述目标损失函数,训练显著帧确定模型。

14.根据权利要求13所述的装置,其中,所述损失函数确定模块进一步被配置成:根据所述显著帧,更新所述样本视频中各视频帧的标注分类标识;

将所述样本视频中的各视频帧输入所述显著帧确定模型,根据所述显著帧确定模型的输出确定各视频帧的预测分类标识;

根据所述预测分类标识以及更新的标注分类标识,确定目标损失函数。

15.根据权利要求14所述的装置,其中,所述损失函数确定模块进一步被配置成:将所述样本视频中非显著帧的标注分类标识设置为预设数值;

响应于确定所述预设数值与更新前的标注分类标识重复,更新部分或全部显著帧的标注分类标识,以避免重复。

16.根据权利要求13所述的装置,其中,所述损失函数确定模块进一步被配置成:根据所述样本视频中的各视频帧,确定混叠帧;

根据得到所述混叠帧的视频帧的标注分类结果,确定与所述混叠帧对应的混叠分类结果;

根据所述显著帧、所述显著帧的标注分类结果、所述混叠帧以及所述混叠帧对应的混叠分类结果,确定目标损失函数。

17.根据权利要求16所述的装置,其中,所述损失函数确定模块进一步被配置成:对于所述样本视频中的每个视频帧,从样本视频中选取一个视频帧与该视频帧进行混叠,得到混叠帧。

18.根据权利要求16所述的装置,其中,所述损失函数确定模块进一步被配置成:更新各视频帧的标注分类结果对应的标注分类标识;

根据得到所述混叠帧的视频帧的更新的标注分类标识,确定所述混叠帧对应的混叠分类结果。

19.根据权利要求16所述的装置,其中,所述损失函数确定模块进一步被配置成:根据所述显著帧以及所述显著帧的标注分类结果,确定第一损失函数;

根据所述混叠帧以及所述混叠帧对应的混叠分类结果,确定第二损失函数;

根据所述第一损失函数以及所述第二损失函数,确定目标损失函数。

20.一种视频分类装置,包括:目标视频获取单元,被配置成获取目标视频;

第二显著帧确定单元,被配置成利用通过权利要求1‑9任一项所述的模型训练方法训练得到的显著帧确定模型确定所述目标视频的显著帧;

视频分类单元,被配置成根据所述目标视频的显著帧以及预先训练的视频分类模型,确定所述目标视频的分类结果。

21.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑9中任一项所述的方法或权利要求10所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1‑9中任一项所述的方法或权利要求10所述的方法。

23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1‑9中任一项所述的方法或权利要求10所述的方法。