利索能及
我要发布
收藏
专利号: 201680084445X
申请人: 北京市商汤科技开发有限公司
专利类型:其他
专利状态:已下证
更新日期:2025-11-07
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于跟踪视频中的目标对象的方法,包括:从所述视频提取含有所述目标对象的3维(3D)特征块;

将所提取的3D特征块分解成:

含有所述目标对象的空间信息的2维(2D)空间特征图;和含有所述目标对象的空间-时间信息的2D空间-时间特征图;

在所述2D空间特征图中估计所述目标对象的位置;

在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;

根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。

2.根据权利要求1所述的方法,

其中,所述2D空间特征图在以下方向上延伸:第一空间方向;以及

与所述第一空间方向相交的第二空间方向;以及其中,所述2D空间-时间特征图包括:第一2D空间-时间特征图,所述第一2D空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及第二2D空间-时间特征图,所述第二2D空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。

3.根据权利要求2所述的方法,还包括提供包括特征提取层的卷积神经网络(CNN),其中,所述提取包括:在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;

评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度;以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述FOI;以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。

4.根据权利要求3所述的方法,其中,所述CNN还包括联接到所述特征提取层的交换层,以及其中,所述分解包括:从所述特征提取层接收所述3D特征块;

禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图;以及禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。

5.根据权利要求4所述的方法,其中,所述CNN还包括联接到所述交换层的2D空间特征提取层,以及其中,所述估计包括:从所述交换层接收所述2D空间特征图;

增强所述FOI在所述2D空间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及估计所识别目标对象的所述位置。

6.根据权利要求5所述的方法,其中,所述CNN还包括联接到所述交换层且平行于所述

2D空间特征提取层的2D空间-时间特征提取层,以及其中,所述确定包括:从所述交换层接收所述2D空间-时间特征图;

增强所述FOI在所述2D空间-时间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。

7.根据权利要求6所述的方法,还包括:独立地训练所述特征提取层;以及

基于训练后的特征提取层单独地训练所述2D空间特征提取层和所述2D空间-时间特征提取层。

8.根据权利要求3所述的方法,其中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

9.一种用于跟踪视频中的目标对象的系统,包括:存储器,所述存储器存储可执行组件;以及处理器,所述处理器电联接到所述存储器以执行所述可执行组件,从而进行以下操作:从所述视频提取含有所述目标对象的3D特征块;

将所提取的3D特征块分解成:

含有所述目标对象的空间信息的2D空间特征图;和含有所述目标对象的空间-时间信息的2D空间-时间特征图;

在所述2D空间特征图中估计所述目标对象的位置;

在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;

根据所确定的速度和加速度校准所述目标对象的估计位置;以及根据校准后的位置跟踪所述视频中的所述目标对象。

10.根据权利要求9所述的系统,

其中,所述2D空间特征图在以下方向上延伸:第一空间方向;以及

与所述第一空间方向相交的第二空间方向;以及其中,所述2D空间-时间特征图包括:第一2D空间-时间特征图,所述第一2D空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及第二2D空间-时间特征图,所述第二2D空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。

11.根据权利要求10所述的系统,还包括包含特征提取层的CNN,其中,所述提取包括:在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;

评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度;以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述FOI;以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。

12.根据权利要求11所述的系统,其中,所述CNN还包括联接到所述特征提取层的交换层,以及其中,所述分解包括:从所述特征提取层接收所述3D特征块;

禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图;以及禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。

13.根据权利要求12所述的系统,其中,所述CNN还包括联接到所述交换层的2D空间特征提取层,以及其中,所述估计包括:从所述交换层接收所述2D空间特征图;

增强所述FOI在所述2D空间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及估计所识别目标对象的所述位置。

14.根据权利要求13所述的系统,其中,所述CNN还包括联接到所述交换层且平行于所述2D空间特征提取层的2D空间-时间特征提取层,以及其中,所述确定包括:从所述交换层接收所述2D空间-时间特征图;

增强所述FOI在所述2D空间-时间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。

15.根据权利要求14所述的系统,其中,所述特征提取层被独立地训练;以及所述2D空间特征提取层和所述2D空间-时间特征提取层基于训练后的特征提取层而单独地被训练。

16.根据权利要求11所述的系统,其中,所述评估包括将所述第一特征图与从所述预设图像生成的二元掩模进行比较。

17.一种用于跟踪视频中的目标对象的系统,包括:特征提取器,所述特征提取器用于从所述视频提取含有所述目标对象的3D特征块;

分解器,所述分解器用于将所提取的3D特征块分解成:含有所述目标对象的空间信息的2D空间特征图;和含有所述目标对象的空间-时间信息的2D空间-时间特征图;

定位器,所述定位器用于在所述2D空间特征图中估计所述目标对象的位置;

运动检测器,所述运动检测器用于在所述2D空间-时间特征图中确定所述目标对象的速度和加速度;

校准器,所述校准器用于根据所确定的速度和加速度校准所述目标对象的估计位置;

以及

跟踪器,所述跟踪器用于根据校准后的位置跟踪所述视频中的所述目标对象。

18.根据权利要求17所述的系统,

其中,所述2D空间特征图在以下方向上延伸:第一空间方向;以及

与所述第一空间方向相交的第二空间方向;以及其中,所述2D空间-时间特征图包括:第一2D空间-时间特征图,所述第一2D空间-时间特征图在所述第一空间方向和时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第一空间方向上的分量;以及第二2D空间-时间特征图,所述第二2D空间-时间特征图在所述第二空间方向和所述时间方向上延伸,并且包括所述目标对象的所述速度和所述加速度在所述第二空间方向上的分量。

19.根据权利要求18所述的系统,还包括包含特征提取层的CNN,其中,所述特征提取器在所述特征提取层中实施且用于:在所述特征提取层中对所述视频的每一帧进行过滤以获得第一特征图;

评估所述第一特征图与含有所述目标对象的关注特征(FOI)的预设图像之间的重叠度和类似度;以及根据所述重叠度和所述类似度从所述第一特征图中选择第二特征图,其中,所述第二特征图仅含有所述目标对象的所述FOI;以及将所述视频的每一帧上的所选第二特征图组合在一起以建构所述3D特征块。

20.根据权利要求19所述的系统,其中,所述CNN还包括联接到所述特征提取层的交换层,以及其中,所述分解器在所述交换层中实施且用于:从所述特征提取层接收所述3D特征块;

禁用所接收特征块在所述时间方向上的数据以获得所述2D空间特征图;以及禁用所接收特征块在所述第一空间方向和所述第二空间方向中的一个方向上的数据以获得所述2D空间-时间特征图。

21.根据权利要求20所述的系统,其中,所述CNN还包括联接到所述交换层的2D空间特征提取层,以及其中,所述定位器在所述2D空间特征提取层中实施且用于:从所述交换层接收所述2D空间特征图;

增强所述FOI在所述2D空间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及估计所识别目标对象的所述位置。

22.根据权利要求21所述的系统,其中,所述CNN还包括联接到所述交换层且平行于所述2D空间特征提取层的2D空间-时间特征提取层,以及其中,所述运动检测器在所述2D空间-时间特征提取层中实施且用于:从所述交换层接收所述2D空间-时间特征图;

增强所述FOI在所述2D空间-时间特征图中的差异;

根据增强后的FOI识别所述目标对象;以及在所述时间方向上对所识别目标对象执行求导操作,以确定所述目标对象的所述速度和所述加速度。

23.根据权利要求22所述的系统,其中,所述特征提取层被独立地训练;以及所述2D空间特征提取层和所述2D空间-时间特征提取层基于训练后的特征提取层而单独地被训练。

24.根据权利要求19所述的系统,其中,所述评估在比较器中实施以将所述第一特征图与从所述预设图像生成的二元掩模进行比较。