利索能及
我要发布
收藏
专利号: 2020800009480
申请人: 商汤国际私人有限公司
专利类型:其他
专利状态:已下证
更新日期:2026-05-22
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种目标跟踪方法,其特征在于,所述方法包括:

对待处理图像进行检测,获得手部检测结果;

响应于所述手部检测结果包括手部的检测框,确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部;

根据所述待处理图像中的目标手部在视频流中跟踪所述目标手部,其中,所述视频流中的图像和所述待处理图像是采集同一目标区域得到的,且所述视频流中的图像是在所述待处理图像之后采集得到的;

根据所述待处理图像中的目标手部,在所述视频流中跟踪所述目标手部,包括:针对所述视频流中的一帧图像,根据该帧图像的前一帧图像的第一矩阵以及第二矩阵,确定该帧图像的第一矩阵以及第二矩阵;

其中,该帧图像的第一矩阵包括目标手部的检测框的中心在该帧图像中的位置信息,该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵;

根据该帧图像的前一帧图像的第一矩阵以及第二矩阵,确定该帧图像的第一矩阵以及第二矩阵,包括:响应于该帧图像的手部检测结果未包括目标手部的检测框,将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵,以及通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵,其中,所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵;

响应于该帧图像的手部检测结果包括目标手部的检测框,

根据该帧图像与前一帧图像的时间间隔,利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵,其中,所述第二预测矩阵是所述第一预测矩阵的协方差矩阵;

根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵,其中,所述第三预测矩阵包含在该帧图像中目标手部的检测框的中心的预测位置信息,所述第四预测矩阵是所述第三预测矩阵的协方差矩阵;

将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘,得到新的高斯分布;

根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵,并根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。

2.根据权利要求1所述的方法,其特征在于,响应于所述手部检测结果包括手部的检测框,确定所述检测框中手部姿态符合目标手势中的手部姿态的手部为目标手部,包括:响应于所述手部检测结果包括所述检测框,确定所述检测框中的手部姿态符合目标手势中的手部姿态,且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为所述目标手部。

3.根据权利要求1或2所述的方法,其特征在于,确定所述检测框中的手部姿态符合所述目标手势中的手部姿态,包括:响应于所述手部检测结果包括手部的检测框,裁剪出所述待处理图像中位于所述检测框中的图像;

根据所述裁剪出的图像,确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

4.根据权利要求1所述的方法,其特征在于,所述目标手势中的手部姿态为两手均朝上;

确定所述检测框中的手部姿态符合所述目标手势中的手部姿态,包括:将所述检测框中的图像输入至手势分类神经网络,获得手势分类结果,所述手势分类结果包括手朝上或者手部为其他姿态;

在所述手部检测结果中两个手部的检测框的手势分类结果为在所述两个检测框中的两只手均朝上时,确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

5.根据权利要求4所述的方法,其特征在于,所述手势分类神经网络利用手部图像样本训练得到,所述手部图像样本中包括手朝上的图像样本,所述手朝上的图像样本的标注结果为手部的手心。

6.根据权利要求2所述的方法,其特征在于,确定所述检测框中的手部在所述待处理图像的预先定义的区域内,包括:响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内,确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

7.根据权利要求6所述的方法,其特征在于,所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域;

确定所述检测框的中心点在所述待处理图像中的预先定义的区域内,包括:确定所述待处理图像中两个检测框的中心点分别在两个设定的子区域中。

8.根据权利要求1所述的方法,其特征在于,所述待处理图像为在俯视视角下采集到的所述目标区域的图像。

9.一种目标跟踪装置,其特征在于,所述装置包括:

检测单元,用于对待处理图像进行检测,获得手部检测结果;

确定单元,用于响应于所述手部检测结果包括手部的检测框,确定所述检测框中的手部姿态符合目标手势中的手部姿态的手部为目标手部;

跟踪单元,用于根据所述待处理图像中的所述目标手部在视频流中跟踪所述目标手部,其中,所述视频流中的图像和所述待处理图像是采集同一目标区域得到的,且所述视频流中的图像是在所述待处理图像之后采集得到的;

所述跟踪单元用于:

针对所述视频流中的一帧图像,根据该帧图像的前一帧图像的第一矩阵以及第二矩阵,确定该帧图像的第一矩阵以及第二矩阵;

其中,该帧图像的第一矩阵包括目标手部的检测框的中心在该帧图像中的位置信息,该帧图像的第二矩阵是该帧图像的第一矩阵的协方差矩阵;

所述跟踪单元用于:

响应于该帧图像的手部检测结果未包括目标手部的检测框,将前一帧图像的第一矩阵确定为该帧图像中的第一矩阵,以及通过修正矩阵对前一帧图像的第二矩阵进行修正以获得该帧图像中的第二矩阵,其中,所述修正矩阵是所述前一帧图像的第二矩阵的协方差矩阵;

响应于该帧图像的手部检测结果包括目标手部的检测框,

根据该帧图像与前一帧图像的时间间隔,利用前一帧图像的第一矩阵预测得到该帧图像的第一预测矩阵以及第二预测矩阵,其中,所述第二预测矩阵是所述第一预测矩阵的协方差矩阵;

根据所述目标手部的检测框的位置信息获得该帧图像的第三预测矩阵和第四预测矩阵,其中,所述第三预测矩阵包含在该帧图像中目标手部的检测框的中心的预测位置信息,所述第四预测矩阵是所述第三预测矩阵的协方差矩阵;

将所述第二预测矩阵对应的高斯分布与所述第四预测矩阵对应的高斯分布相乘,得到新的高斯分布;

根据所得到的新的高斯分布的均值确定该帧图像的所述第一矩阵,并根据所得到的新的高斯分布的协方差确定该帧图像的所述第二矩阵。

10.根据权利要求9所述的装置,其特征在于,所述确定单元用于:响应于所述手部检测结果包括所述检测框,确定所述检测框中的手部姿态符合目标手势中的手部姿态,且所述检测框中的手部在所述待处理图像中的预先定义的区域内的手部为所述目标手部。

11.根据权利要求9或10所述的装置,其特征在于,所述确定单元用于:响应于所述手部检测结果包括手部的检测框,裁剪出所述待处理图像中位于所述检测框中的图像;

根据所述裁剪出的图像,确定所述裁剪出的图像中的手部姿态符合目标手势中的手部姿态。

12.根据权利要求9所述的装置,其特征在于,所述目标手势中的手部姿态为两手均朝上;

所述确定单元用于:

将所述检测框中的图像输入至手势分类神经网络,获得手势分类结果,所述手势分类结果包括手朝上或者手部为其他姿态;

在所述手部检测结果中两个手部的检测框的手势分类结果为在所述两个检测框中的两只手均朝上时,确定这两个手部的检测框中的手部姿态符合目标手势中的手部姿态。

13.根据权利要求12所述的装置,其特征在于,所述手势分类神经网络利用手部图像样本训练得到,所述手部图像样本中包括手朝上的图像样本,所述手朝上的图像样本的标注结果为手部的手心。

14.根据权利要求10所述的装置,其特征在于,所述确定单元用于:响应于确定所述检测框的中心点位于所述待处理图像的预先定义的区域内,确定所述检测框中的手部在所述待处理图像中的预先定义的区域内。

15.根据权利要求14所述的装置,其特征在于,所述预先定义的区域包括所述处理图像中、与所述目标区域中的两个子区域分别对应的两个设定的子区域;

所述确定单元用于:

确定所述待处理图像中两个手部的检测框的中心点分别在两个设定的子区域中。

16.根据权利要求9所述的装置,其特征在于,所述待处理图像为在俯视视角下采集到的所述目标区域的图像。

17.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器用于存储能够在所述处理器上运行的计算机指令,所述处理器用于在执行所述计算机指令时实现权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述的方法。