利索能及
我要发布
收藏
专利号: 201710384723X
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-18
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种视线追踪神经网络的训练方法,其特征在于,包括:利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息,利用第二神经网络获取所述至少一个样本图像中的头部姿态预估信息;其中,所述样本图像标注有视线方向标注信息;

分别针对所述至少一个样本图像中的任一样本图像,通过几何运算方式,根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息;所述几何运算方式为无神经网络参数的运算方式;

基于所述至少一个样本图像的所述视线方向预估信息和所述视线方向标注信息,对所述第一神经网络和所述第二神经网络进行训练。

2.根据权利要求1所述的方法,其特征在于,所述样本图像还标注有眼珠转角标注信息;

所述利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息之前,还包括:基于所述至少一个样本图像的眼珠转角预估信息和眼珠转角标注信息,对所述第一神经网络进行训练。

3.根据权利要求2所述的方法,其特征在于,基于所述至少一个样本图像的眼珠转角预估信息和眼珠转角标注信息,对所述第一神经网络进行训练,包括:利用所述第一神经网络分别获取所述至少一个样本图像中的眼珠转角,得到至少一个眼珠转角预估信息;

基于所述至少一个样本图像的所述眼珠转角预估信息与所述眼珠转角标注信息之间的差值,获取第一损失函数值;

识别所述第一损失函数值是否满足第一预设条件;

响应于所述第一损失函数值不满足第一预设条件,基于所述第一损失函数值对第一神经网络的参数值进行调整,然后迭代执行所述利用所述第一神经网络分别获取所述至少一个样本图像中的眼珠转角的操作,直至所述第一损失函数值满足第一预设条件。

4.根据权利要求3所述的方法,其特征在于,所述样本图像还标注有头部姿态标注信息;

所述利用第二神经网络获取所述至少一个样本图像中的头部姿态预估信息之前,还包括:

基于所述至少一个样本图像的头部姿态预估信息和头部姿态标注信息,对所述第二神经网络进行训练。

5.根据权利要求4所述的方法,其特征在于,基于所述至少一个样本图像的头部姿态预估信息和头部姿态标注信息,对所述第二神经网络进行训练,包括:利用所述第二神经网络分别获取所述至少一个样本图像中的头部姿态,得到至少一个头部姿态预估信息;

基于所述至少一个样本图像的所述头部姿态预估信息与所述头部姿态标注信息之间的差值,获取第二损失函数值;

识别所述第二损失函数值是否满足第二预设条件;

响应于所述第二损失函数值不满足第二预设条件,基于所述第二损失函数值对第二神经网络的参数值进行调整,然后迭代执行所述利用所述第二神经网络分别获取所述至少一个样本图像中的头部姿态的操作,直至所述第二损失函数值满足第二预设条件。

6.根据权利要求5所述的方法,其特征在于,根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息,包括:响应于所述第一损失函数值满足第一预设条件、且所述第二损失函数值满足第二预设条件,执行所述根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息的操作。

7.根据权利要求1所述的方法,其特征在于,所述眼珠转角预估信息为样本图像中头部坐标系中的眼珠转角预估信息,所述头部姿态预估信息为获取样本图像的照相机坐标系中的头部姿态预估信息;

根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息,包括:

分别针对所述任一样本图像,通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得所述任一样本图像在照相机坐标系中的视线方向预估信息。

8.根据权利要求1所述的方法,其特征在于,所述眼珠转角预估信息为样本图像中头部坐标系中的眼珠转角预估信息,所述头部姿态预估信息为获取样本图像的照相机坐标系中的头部姿态预估信息;

根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息,包括:

分别针对所述任一样本图像,通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得所述任一样本图像在照相机坐标系中的中间眼珠转角;

通过照相机坐标系到世界坐标系的第二变换矩阵对中间眼珠转角进行变换,获得样本图像在世界坐标系中的视线方向预估信息。

9.根据权利要求1所述的方法,其特征在于,基于所述至少一个样本图像的所述视线方向预估信息和所述视线方向标注信息,对所述第一神经网络和所述第二神经网络进行训练,包括:

基于所述任一样本图像的视线方向预估信息与所述视线方向标注信息之间的差值,获取第三损失函数值;

识别所述第三损失函数值是否满足第三预设条件;

响应于所述第三损失函数值不满足第三预设条件,基于所述第三损失函数值对第一神经网络和/或第二神经网络的参数值进行调整,然后迭代执行所述基于所述任一样本图像的视线方向预估信息与所述视线方向标注信息之间的差值,获取第三损失函数值的操作,直至所述第三损失函数值满足第三预设条件。

10.根据权利要求5所述的方法,其特征在于,所述利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息,利用第二神经网络获取所述至少一个样本图像中的头部姿态预估信息之前,还包括:

利用第一神经网络获取至少一个样本图像中的眼珠转角,得到至少一个眼珠转角预估信息;利用所述第二神经网络获取所述至少一个样本图像中的头部姿态,得到至少一个头部姿态预估信息;

基于所述至少一个样本图像的所述眼珠转角预估信息与眼珠转角标注信息之间的差值,获取第一损失函数值;识别所述第一损失函数值是否满足第一预设条件;响应于所述第一损失函数值不满足第一预设条件,基于所述第一损失函数值对第一神经网络的参数值进行调整,然后执行所述利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息的操作;以及基于各样本图像的所述头部姿态预估信息与头部姿态标注信息之间的差值,获取第二损失函数值;识别所述第二损失函数值是否满足第二预设条件;响应于所述第二损失函数值不满足第二预设条件,基于所述第二损失函数值对第二神经网络的参数值进行调整,然后执行所述利用第二神经网络获取所述至少一个样本图像中的头部姿态预估信息的操作;

响应于所述第一损失函数值满足第一预设条件、且所述第二损失函数值满足第二预设条件,执行所述分别针对所述至少一个样本图像中的任一样本图像,通过几何运算方式,根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息的操作;

基于所述至少一个样本图像的所述视线方向预估信息和所述视线方向标注信息,对所述第一神经网络和所述第二神经网络进行训练,包括:基于所述至少一个样本图像的视线方向预估信息与视线方向标注信息之间的差值,获取第三损失函数值;

识别所述第三损失函数值是否满足第三预设条件;

响应于所述第三损失函数值不满足第三预设条件,基于所述第三损失函数值对第一神经网络和/或第二神经网络的参数值进行调整,然后迭代执行所述利用第一神经网络获取至少一个样本图像中的眼珠转角、以及利用所述第二神经网络获取所述至少一个样本图像中的头部姿态的操作,直至所述第三损失函数值满足第三预设条件。

11.根据权利要求10所述的方法,其特征在于,所述第一损失函数、所述第二损失函数和/或所述第三损失函数包括欧几里得损失函数。

12.根据权利要求2至10任意一项所述的方法,其特征在于,所述对所述第一神经网络进行训练之前,还包括:

分别对所述至少一个样本图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述至少一个样本图像进行眼部图像截取,获得所述至少一个样本图像中的眼部图像并输入所述第一神经网络;

所述样本图像标注有眼珠转角标注信息包括:所述眼部图像标注有眼珠转角标注信息;

所述利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息,包括:利用所述第一神经网络获取所述至少一个样本图像中的眼部图像中的眼珠转角预估信息。

13.根据权利要求4至10任意一项所述的方法,其特征在于,对所述第二神经网络进行训练之前,还包括:

分别对所述至少一个样本图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述至少一个样本图像进行头部图像截取,获得至少一个头部图像并输入所述第二神经网络;

所述样本图像标注有头部姿态标注信息包括:所述头部图像标注有头部姿态标注信息;

所述第二神经网络获取所述至少一个样本图像中的头部姿态包括:所述第二神经网络获取至少一个头部图像中的头部姿态。

14.一种视线追踪方法,其特征在于,包括:获取目标图像;

利用第一神经网络获取所述目标图像中的眼珠转角预估信息,以及利用第二神经网络获取所述目标图像中的头部姿态预估信息;

通过几何运算方式,基于所述眼珠转角预估信息和所述头部姿态预估信息,计算所述目标图像的视线方向预估信息;所述几何运算方式为无神经网络参数的运算方式。

15.根据权利要求14所述的方法,其特征在于,基于所述眼珠转角预估信息和所述头部姿态预估信息,计算所述目标图像的视线方向预估信息,包括:通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得所述目标图像在照相机坐标系中的视线方向预估信息。

16.根据权利要求14所述的方法,其特征在于,基于所述眼珠转角预估信息和所述头部姿态预估信息,计算所述目标图像的视线方向预估信息,包括:通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角进行变换,获得所述目标图像在照相机坐标系中的中间眼珠转角;通过照相机坐标系到世界坐标系的第二变换矩阵对所述中间眼珠转角进行变换,获得所述目标图像在世界坐标系中的视线方向预估信息。

17.根据权利要求14所述的方法,其特征在于,所述获取目标图像之后,还包括:对所述目标图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述目标图像进行眼部图像截取,获得所述目标图像中的眼部图像并输入所述第一神经网络;以及对所述目标图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述目标图像进行头部图像截取,获得所述目标图像中的头部图像并输入所述第二神经网络;

利用第一神经网络获取所述目标图像中的眼珠转角预估信息,以及利用第二神经网络获取所述目标图像中的头部姿态预估信息,包括:利用所述第一神经网络获取所述眼部图像中的眼珠转角预估信息,以及利用所述第二神经网络获取所述头部图像中的头部姿态预估信息。

18.一种视线追踪神经网络的训练装置,其特征在于,包括:第一获取模块,用于分别针对至少一个样本图像中的任一样本图像,通过几何运算方式,根据第一神经网络获取到的眼珠转角预估信息和第二神经网络获取到的头部姿态预计信息,计算视线方向预估信息;其中,所述样本图像标注有视线方向标注信息;所述几何运算方式为无神经网络参数的运算方式;

第一网络训练模块,用于基于所述至少一个样本图像的视线方向预估信息和所述视线方向标注信息,对所述第一神经网络和所述第二神经网络进行训练。

19.根据权利要求18所述的装置,其特征在于,所述样本图像还标注有眼珠转角标注信息和头部姿态标注信息;

所述装置还包括:

第二网络训练模块,用于基于所述至少一个样本图像的眼珠转角预估信息和眼珠转角标注信息,对所述第一神经网络进行训练;

第三网络训练模块,用于基于所述至少一个样本图像的头部姿态预估信息和头部姿态标注信息,对所述第二神经网络进行训练。

20.根据权利要求19所述的装置,其特征在于,所述第二网络训练模块包括:第一获取子模块,用于获取所述第一神经网络获取到的所述至少一个样本图像中的眼珠转角预估信息;

第二获取子模块,用于基于所述至少一个样本图像的所述眼珠转角预估信息与眼珠转角标注信息之间的差值,获取第一损失函数值;

第一识别子模块,用于识别所述第一损失函数值是否满足第一预设条件;

第一训练子模块,用于在所述第一损失函数值不满足第一预设条件时,基于所述第一损失函数值对第一神经网络的参数值进行调整,指示所述第一神经网络重新获取所述至少一个样本图像中的眼珠转角预估信息,以及指示所述第一获取子模块获取所述第一神经网络获取到的所述至少一个样本图像中的眼珠转角预估信息的操作,直至所述第一损失函数值满足第一预设条件。

21.根据权利要求20所述的装置,其特征在于,所述第三网络训练模块包括:第三获取子模块,用于获取第二神经网络获取到的所述至少一个样本图像中的头部姿态预估信息;

第四获取子模块,用于基于所述至少一个样本图像的所述头部姿态预估信息与头部姿态标注信息之间的差值,获取第二损失函数值;

第二识别子模块,用于识别所述第二损失函数值是否满足第二预设条件;

第二训练子模块,用于在所述第二损失函数值不满足第二预设条件时,基于所述第二损失函数值对第二神经网络的参数值进行调整,指示所述第二神经网络重新获取所述至少一个样本图像中的头部姿态预估信息,以及指示所述第三获取子模块获取所述第二神经网络获取到的所述至少一个样本图像中的头部姿态预估信息的操作,直至所述第二损失函数值满足第二预设条件。

22.根据权利要求21所述的装置,其特征在于,所述第一获取模块,具体用于:在所述第一损失函数值满足第一预设条件、且所述第二损失函数值满足第二预设条件时,通过几何运算方式,根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息;所述几何运算方式为无神经网络参数的运算方式。

23.根据权利要求18至22任意一项所述的装置,其特征在于,所述眼珠转角预估信息为样本图像中头部坐标系中的眼珠转角预估信息,所述头部姿态预估信息为获取样本图像的照相机坐标系中的头部姿态预估信息;

所述第一获取模块根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息时,具体用于:分别针对所述任一样本图像,通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得样本图像在照相机坐标系中的视线方向预估信息。

24.根据权利要求21至22任意一项所述的装置,其特征在于,所述眼珠转角预估信息为样本图像中头部坐标系中的眼珠转角预估信息,所述头部姿态预估信息为获取样本图像的照相机坐标系中的头部姿态预估信息;

所述第一获取模块根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息时,具体用于:在所述第一损失函数值满足第一预设条件、且所述第二损失函数值满足第二预设条件时,分别针对所述任一样本图像,通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得样本图像在照相机坐标系中的中间眼珠转角;以及通过照相机坐标系到世界坐标系的第二变换矩阵对中间眼珠转角进行变换,获得样本图像在世界坐标系中的视线方向预估信息。

25.根据权利要求19所述的装置,其特征在于,所述第二网络训练模块包括:第一获取子模块,用于通过第一神经网络获取所述至少一个样本图像中的眼珠转角,得到至少一个眼珠转角预估信息;

第二获取子模块,用于基于所述至少一个样本图像的所述眼珠转角预估信息与眼珠转角标注信息之间的差值,获取第一损失函数值;

第一识别子模块,用于识别所述第一损失函数值是否满足第一预设条件;在所述第一损失函数值满足第一预设条件时,指示所述第一神经网络输出眼珠转角预估信息;

第一训练子模块,用于在所述第一损失函数值不满足第一预设条件时,基于所述第一损失函数值对第一神经网络的参数值进行调整,指示所述第一神经网络重新获取所述至少一个样本图像中的眼珠转角预估信息并输出;

所述第三网络训练模块包括:

第三获取子模块,用于获取第二神经网络获取到的所述至少一个样本图像中的头部姿态,得到至少一个头部姿态预估信息;

第四获取子模块,用于基于所述至少一个样本图像的所述头部姿态预估信息与头部姿态标注信息之间的差值,获取第二损失函数值;

第二识别子模块,用于识别所述第二损失函数值是否满足第二预设条件;在所述第二损失函数值满足第二预设条件时,指示所述第二神经网络输出头部姿态预估信息;

第二训练子模块,用于在所述第二损失函数值不满足第二预设条件时,基于所述第二损失函数值对第二神经网络的参数值进行调整,指示所述第二神经网络重新获取所述至少一个样本图像中的头部姿态预估信息并输出;

所述第一获取模块,具体用于:分别由第一神经网络输出的各样本图像的眼珠转角预估信息和第二神经网络输出的各样本图像的头部姿态预估信息,计算视线方向预估信息。

26.根据权利要求19所述的装置,其特征在于,所述第一网络训练模块,包括:第五获取子模块,用于基于所述任一样本图像的视线方向预估信息与视线方向标注信息之间的差值,获取第三损失函数值;

第三识别子模块,用于识别所述第三损失函数值是否满足第三预设条件;

第三训练子模块,用于在所述第三损失函数值不满足第三预设条件时,基于所述第三损失函数值对第一神经网络和/或第二神经网络的参数值进行调整,然后指示所述第二网络训练模块利用至少一个样本图像对第一神经网络进行训练、和/或指示所述第三网络训练模块利用至少一个样本图像对第二神经网络进行训练的操作。

27.根据权利要求18至22任意一项所述的装置,其特征在于,还包括:图像截取模块,用于分别对所述至少一个样本图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述至少一个样本图像进行眼部图像截取,获得所述至少一个样本图像中的眼部图像并输入所述第一神经网络;以及分别对所述至少一个样本图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述至少一个样本图像进行头部图像截取,获得所述至少一个样本图像中的头部图像并输入所述第二神经网络;

所述样本图像标注有眼珠转角标注信息包括:所述眼部图像标注有眼珠转角标注信息;所述第一神经网络具体获取眼部图像中的眼珠转角;

所述样本图像标注有头部姿态标注信息包括:所述头部图像标注有头部姿态标注信息;所述第二神经网络具体获取头部图像中的头部姿态。

28.一种视线追踪神经网络的训练系统,其特征在于,包括:第一神经网络、第二神经网络和视线追踪神经网络的训练装置;其中:所述第一神经网络,用于获取至少一个样本图像中的眼珠转角预估信息,所述样本图像标注有视线方向标注信息;

所述第二神经网络,用于获取所述至少一个样本图像中的头部姿态预估信息;

所述视线追踪神经网络的训练装置,用于:利用第一神经网络获取至少一个样本图像中的眼珠转角预估信息,利用第二神经网络获取所述至少一个样本图像中的头部姿态预估信息;

分别针对所述至少一个样本图像中的任一样本图像,通过几何运算方式,根据所述任一样本图像的眼珠转角预估信息和头部姿态预估信息,计算视线方向预估信息;所述几何运算方式为无神经网络参数的运算方式;以及基于所述至少一个样本图像的所述视线方向预估信息和所述视线方向标注信息,对所述第一神经网络和所述第二神经网络进行训练。

29.根据权利要求28所述的系统,其特征在于,所述视线追踪神经网络的训练装置包括权利要求18至27任意一项所述的视线追踪神经网络的训练装置。

30.一种视线追踪装置,其特征在于,包括:第二获取模块,用于获取目标图像;

第一神经网络,用于获取所述目标图像中的眼珠转角预估信息;

第二神经网络,用于获取所述目标图像中的头部姿态预估信息;

第三获取模块,用于通过几何运算方式,基于所述眼珠转角预估信息和所述头部姿态预估信息,计算所述目标图像的视线方向预估信息;所述几何运算方式为无神经网络参数的运算方式。

31.根据权利要求30所述的装置,其特征在于,所述第三获取模块,具体用于通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角进行变换,获得所述目标图像在照相机坐标系中的视线方向预估信息。

32.根据权利要求30所述的装置,其特征在于,所述第三获取模块包括:第一变换子模块,用于通过头部坐标系到照相机坐标系的第一变换矩阵对所述眼珠转角预估信息进行变换,获得所述目标图像在照相机坐标系中的中间眼珠转角;

第二变换子模块,用于通过照相机坐标系到世界坐标系的第二变换矩阵对所述中间眼珠转角进行变换,获得所述目标图像在世界坐标系中的视线方向预估信息。

33.根据权利要求30所述的装置,其特征在于,还包括:图像截取模块,用于对所述目标图像进行面部关键点定位,并根据定位得到的面部关键点的坐标信息对所述目标图像进行眼部图像截取,获得所述目标图像中的眼部图像并输入所述第一神经网络;以及对所述目标图像进行面部关键点定位,并根据面部关键点的坐标信息对所述目标图像进行头部图像截取,获得所述目标图像中的头部图像并输入所述第二神经网络;

所述第一神经网络,具体用于获取所述眼部图像中的眼珠转角预估信息;

所述第二神经网络,具体用于获取所述头部图像中的头部姿态预估信息。

34.一种电子设备,包括:权利要求18至27任意一项所述视线追踪神经网络的训练装置;或者,权利要求28至29任意一项所述视线追踪神经网络的训练系统;或者,权利要求30至33任意一项所述视线追踪装置。

35.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求1至13任一所述视线追踪神经网络的训练方法的操作。

36.一种电子设备,其特征在于,包括:存储器,用于存储可执行指令;以及处理器,用于与所述存储器通信以执行所述可执行指令从而完成权利要求14至17任一所述视线追踪方法的操作。

37.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求1至13任一所述视线追踪神经网络的训练方法的操作。

38.一种计算机存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时实现权利要求14至17任一所述视线追踪方法的操作。