利索能及
我要发布
收藏
专利号: 2023111007304
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-07-01
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种网络直播视频的异常动作定位方法,其特征在于,该异常动作定位方法包括:基于多纤维网络对所述网络直播视频进行特征提取,以生成所述网络直播视频的片段级视频特征序列;

对所述片段级视频特征进行处理,输出针对所述网络直播视频中的主播动作的类别激活序列和注意力分支;以及基于所述类别激活序列与所述注意力分支的加权结果,生成针对所述主播动作的时序异常动作提名,其中所述时序异常动作提名用于指示针对所述网络直播视频的主播动作的异常动作定位结果;

其中,生成所述时序异常动作提名包括:

基于多实例学习方法计算所述类别激活序列与所述注意力分支的加权结果,以得到待测视频各个类别的置信度得分;

将所述置信度得分与预设的类别置信度阈值进行比较,以筛选所述时序异常动作提名的候选序列;

采用下式计算所述候选序列的置信度得分:

s

式中,对于连续片段构成的序列i , scorei表示所述置信度得分,t  i表示开始时刻,t e li表示结束时刻,c i异常动作类别,t  i表示开始时刻之前以及结束时刻之后的一段持续时间, 表示筛选后的序列;

基于所述候选序列的置信度得分、异常动作类别和起止时间,确定用于异常动作定位的候选框;以及筛选候选框,以确定所述时序异常动作提名。

2.根据权利要求1所述的异常动作定位方法,其特征在于,在基于多纤维网络对所述网络直播视频进行特征提取之前,所述异常动作定位方法还包括采用以下方式对所述多纤维网络预训练:使用数据集中裁剪后的直播域视频,并对所述数据集中的初始视频进行背景擦除,生成背景擦除后的多样化视频样本;

以及将所述初始视频和所述背景擦除后的多样化视频样本进行数据增强,输入至初始多纤维网络提取特征,然后送入分类器,并基于度量学习损失以及交叉熵损失进行视频动作识别任务的训练,得到对网络直播视频动作具有敏感性的特征提取骨干网络。

3.根据权利要求2所述的异常动作定位方法,其特征在于,对所述数据集中的视频进行背景擦除,生成背景擦除后的多样化视频样本,包括:对所述数据集中的初始视频进行随机一帧采样,得到相应的采样帧图像;

对所述初始视频和所述采样帧图像进行加权并融合至所述初始视频的各个帧中,以得到所述背景擦除后的多样化视频样本。

4.根据权利要求1所述的异常动作定位方法,其特征在于,对所述片段级视频特征序列进行处理,输出相应的类别激活序列,包括:对所述片段级视频特征序列进行嵌入,得到嵌入后的片段级视频特征序列;

采用片段级分类器对所述嵌入后的片段级视频特征序列进行分类,得到类别激活序列和注意力分支;

采用所述注意力分支对所述类别激活序列进行加权,输出得到加权后的类别激活序列。

5.根据权利要求1所述的异常动作定位方法,其特征在于,基于非极大值抑制的方法筛选候选框,确定所述时序异常动作提名,包括:对所述候选框的置信度得分进行排序,计算所述候选框在视频维度的交并比;

删除与高置信度候选框在视频维度的交并比大于预设阈值的候选框,将其余候选框作为所述时序异常动作定位结果。

6.根据权利要求1所述的异常动作定位方法,其特征在于,所述异常动作定位方法还包括:构建损失函数优化模型,以优化针对所述网络直播视频的异常动作的定位性能。

7.一种针对网络直播视频的异常动作定位装置,其特征在于,所述异常动作定位装置包括:存储器,其存储能够在处理器上运行的程序;以及

所述处理器,其被配置为执行所述程序时实现上述权利要求1‑6任一项所述的针对网络直播视频的异常动作定位方法。

8.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1‑6中任一项所述的针对网络直播视频的异常动作定位方法。