利索能及
我要发布
收藏
专利号: 2019103598700
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于处理视频帧的神经网络训练方法,其特征在于,所述方法包括:获取第一视频帧和第二视频帧,所述第一视频帧和所述第二视频帧相邻、且所述第二视频帧的拍摄时间晚于所述第一视频帧的拍摄时间;

使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练,得到训练结果,所述神经网络系统包括第一神经网络和第二神经网络,所述训练结果包括:由所述第一神经网络得到的所述第一视频帧的语义分割结果以及所述第二视频帧的第一语义分割结果,以及,由所述第二神经网络得到的所述第二视频帧的光流结果;

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数,所述第一参数用于表征所述第一神经网络的准确程度;

根据所述第一参数,调整所述神经网络系统的网络参数值,其中,所述神经网络系统包括至少一层子神经网络系统,所述第一神经网络包括至少一层第一子神经网络,所述第二神经网络包括至少一层第二子神经网络,每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

2.根据权利要求1所述的方法,其特征在于,所述训练结果还包括:所述第一视频帧和所述第二视频帧的相似度信息;

所述方法还包括:

根据所述第一视频帧和所述第二视频帧的相似度信息,获取所述神经网络系统的第二参数,所述第二参数用于表征所述第二神经网络的准确程度;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数和所述第二参数,调整所述神经网络系统的网络参数值。

3.根据权利要求2所述的方法,其特征在于,所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果,获取所述神经网络系统的第一参数,包括:根据所述第一视频帧的语义分割结果和所述第二视频帧的光流结果,得到所述第二视频帧的第二语义分割结果;

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果,获取所述第一参数。

4.根据权利要求2或3所述的方法,其特征在于,所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数,包括:根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果,获取第i层的所述子神经网络系统的第一参数,i为大于或等于1的整数;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所有层的所述子神经网络系统的第一参数之和,调整所述神经网络系统的网络参数值。

5.根据权利要求4所述的方法,其特征在于,所述根据所述第一视频帧和所述第二视频帧的相似度信息、获取第二参数,包括:根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息,获取第i层的所述子神经网络系统的第二参数;

所述根据所述第一参数和所述第二参数,调整所述神经网络系统的网络参数值,包括:根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第二参数之和,调整所述神经网络系统的网络参数值。

6.根据权利要求5所述的方法,其特征在于,当i大于或等于2时,所述第i层的第二神经子网络的第二视频帧的光流结果根据第i‑1层的第一子神经网络输出的语义分割结果、第i‑1层的第二子神经网络输出的第二视频帧的光流结果、第i‑1层的第二子神经网络的网络参数确定。

7.根据权利要求2‑3任一项所述的方法,其特征在于,若所述第二视频帧为标注有语义分割信息的视频帧,则所述方法还包括:根据所述第二视频帧的第一语义分割结果,以及,所述第二视频帧所标注的语义分割信息,得到第三参数;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数和第三参数,调整所述神经网络系统的网络参数值。

8.根据权利要求7所述的方法,其特征在于,所述方法还包括:获取所述神经网络系统的第四参数,所述第四参数用于表征所述第二神经网络的平滑损失;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数、第二参数、第三参数和第四参数,调整所述神经网络系统的网络参数值。

9.根据权利要求1所述的方法,其特征在于,所述训练结果还包括:所述第二视频帧的光流结果对应的遮挡区域信息;

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数,包括:根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数。

10.根据权利要求9所述的方法,其特征在于,所述训练结果还包括:所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息,所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息;

所述方法还包括:

根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息,获取所述神经网络系统的第五参数,所述第五参数用于表征所述第二神经网络的准确程度;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数和所述第五参数,调整所述神经网络系统的网络参数值。

11.根据权利要求10所述的方法,其特征在于,所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息,获取所述神经网络系统的第一参数,包括:根据所述第一视频帧的语义分割结果和所述第二视频帧的光流结果,得到所述第二视频帧的第二语义分割结果;

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息,获取所述第一参数。

12.根据权利要求10或11所述的方法,其特征在于,所述神经网络系统包括至少一层子神经网络系统,所述第一神经网络包括至少一层第一子神经网络,所述第二神经网络包括至少一层第二子神经网络,每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成;

所述根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数,包括:

根据第i层的所述第二子神经网络输出的第二视频帧的光流结果、第i层的所述第一子神经网络输出的第一视频帧的语义分割结果、第i层的所述第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的所述第一子神经网络输出的第二视频帧的第一语义分割结果,获取第i层的所述子神经网络系统的第一参数,i为大于或等于1的整数;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所有层的所述子神经网络系统的第一参数之和,调整所述神经网络系统的网络参数值。

13.根据权利要求12所述的方法,其特征在于,所述根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息,获取第五参数,包括:

根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息、第i层的所述子神经网络系统的遮挡区域差异信息、第i层的第二视频帧的光流结果对应的遮挡区域信息,获取第i层的所述子神经网络系统的第五参数;

所述根据所述第一参数和所述第五参数,调整所述神经网络系统的网络参数值,包括:根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第五参数之和,调整所述神经网络系统的网络参数值。

14.根据权利要求13所述的方法,其特征在于,当i大于或等于2时,所述第i层的第二神经子网络的第二视频帧的光流结果根据第i‑1层的第一子神经网络输出的图像、第i‑1层的第二子神经网络输出的第二视频帧的光流结果、第i‑1层的第二子神经网络的网络参数确定。

15.根据权利要求11所述的方法,其特征在于,若所述第二视频帧为标注有语义分割信息的视频帧,则所述方法还包括:根据所述第二视频帧的第一语义分割结果,以及,所述第二视频帧所标注的语义分割信息,得到第六参数;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数和第六参数,调整所述神经网络系统的网络参数值。

16.根据权利要求15所述的方法,其特征在于,所述方法还包括:获取所述神经网络系统的第七参数,所述第七参数用于表征所述第二神经网络的平滑损失;

所述根据所述第一参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数、第五参数、第六参数和第七参数,调整所述神经网络系统的网络参数值。

17.根据权利要求16所述的方法,其特征在于,所述根据所述第一参数、第五参数、第六参数和第七参数,调整所述神经网络系统的网络参数值,包括:根据所述第一参数、第五参数、第六参数、第七参数以及第八参数,调整所述神经网络系统的网络参数值;

其中,所述第八参数用于表征所述第二视频帧的光流结果对应的遮挡区域信息的准确程度。

18.一种视频帧处理方法,其特征在于,所述方法包括:获取待处理的第三视频帧;

将所述第三视频帧输入至训练后的神经网络系统,获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果,所述神经网络系统为权利要求1或2所述的神经网络系统;

输出所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果。

19.根据权利要求18所述的方法,其特征在于,所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧,所述方法还包括:根据所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果,控制所述车辆的驾驶行为。

20.一种用于处理视频帧的神经网络训练装置,其特征在于,所述装置包括:第一获取模块,用于获取第一视频帧和第二视频帧,所述第一视频帧和所述第二视频帧相邻、且所述第二视频帧的拍摄时间晚于所述第一视频帧的拍摄时间;

训练模块,用于使用第一视频帧和第二视频帧对待训练的神经网络系统进行训练,得到训练结果,所述神经网络系统包括第一神经网络和第二神经网络,所述训练结果包括:由所述第一神经网络得到的所述第一视频帧的语义分割结果以及所述第二视频帧的第一语义分割结果,以及,由所述第二神经网络得到的所述第二视频帧的光流结果;

第二获取模块,用于根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数,所述第一参数用于表征所述第一神经网络的准确程度;

调整模块,用于根据所述第一参数,调整所述神经网络系统的网络参数值,其中,所述神经网络系统包括至少一层子神经网络系统,所述第一神经网络包括至少一层第一子神经网络,所述第二神经网络包括至少一层第二子神经网络,每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成。

21.根据权利要求20所述的装置,其特征在于,所述训练结果还包括:所述第一视频帧和所述第二视频帧的相似度信息;

所述装置还包括:

第三获取模块,用于根据所述第一视频帧和所述第二视频帧的相似度信息,获取所述神经网络系统的第二参数,所述第二参数用于表征所述第二神经网络的准确程度;

所述调整模块具体用于:

根据所述第一参数和所述第二参数,调整所述神经网络系统的网络参数值。

22.根据权利要求21所述的装置,其特征在于,所述第二获取模块具体用于:根据所述第一视频帧的语义分割结果和所述第二视频帧的光流结果,得到所述第二视频帧的第二语义分割结果;

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果,获取所述第一参数。

23.根据权利要求21或22所述的装置,其特征在于,所述第二获取模块具体用于:

根据第i层的第二子神经网络输出的第二视频帧的光流结果、第i层的第一子神经网络输出的第一视频帧的语义分割结果、第i层的第一子神经网络输出的第二视频帧的第一语义分割结果,获取第i层的所述子神经网络系统的第一参数,i为大于或等于1的整数;

所述调整模块具体用于:

根据所有层的所述子神经网络系统的第一参数之和,调整所述神经网络系统的网络参数值。

24.根据权利要求23所述的装置,其特征在于,所述第三获取模块具体用于:根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息,获取第i层的所述子神经网络系统的第二参数;

所述调整模块具体用于:

根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第二参数之和,调整所述神经网络系统的网络参数值。

25.根据权利要求24所述的装置,其特征在于,当i大于或等于2时,所述第i层的第二神经子网络的第二视频帧的光流结果根据第i‑1层的第一子神经网络输出的语义分割结果、第i‑1层的第二子神经网络输出的第二视频帧的光流结果、第i‑1层的第二子神经网络的网络参数确定。

26.根据权利要求21‑22任一项所述的装置,其特征在于,若所述第二视频帧为标注有语义分割信息的视频帧,则所述装置还包括:第四获取模块,用于根据所述第二视频帧的第一语义分割结果,以及,所述第二视频帧所标注的语义分割信息,得到第三参数;

所述调整模块具体用于:

根据所述第一参数和第三参数,调整所述神经网络系统的网络参数值。

27.根据权利要求26所述的装置,其特征在于,所述装置还包括:第五获取模块,用于获取所述神经网络系统的第四参数,所述第四参数用于表征所述第二神经网络的平滑损失;

所述调整模块具体用于:

根据所述第一参数、第二参数、第三参数和第四参数,调整所述神经网络系统的网络参数值。

28.根据权利要求20所述的装置,其特征在于,所述训练结果还包括:所述第二视频帧的光流结果对应的遮挡区域信息;

所述第二获取模块具体用于:

根据所述第二视频帧的光流结果、所述第一视频帧的语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息、所述第二视频帧的第一语义分割结果,获取所述神经网络系统的第一参数。

29.根据权利要求28所述的装置,其特征在于,所述训练结果还包括:所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息,所述遮挡区域差异信息为所述第二视频帧的第一语义分割结果对应的遮挡区域信息与所述第二视频帧的光流结果对应的遮挡区域信息的差异信息;

所述装置还包括:

第六获取模块,用于根据所述第一视频帧和所述第二视频帧的相似度信息、遮挡区域差异信息、所述第二视频帧的光流结果对应的遮挡区域信息,获取所述神经网络系统的第五参数,所述第五参数用于表征所述第二神经网络的准确程度;

所述调整模块具体用于:

根据所述第一参数和所述第五参数,调整所述神经网络系统的网络参数值。

30.根据权利要求29所述的装置,其特征在于,所述第二获取模块具体用于:根据所述第一视频帧的语义分割结果和所述第二视频帧的光流结果,得到所述第二视频帧的第二语义分割结果;

根据所述第二视频帧的第二语义分割结果、所述第二视频帧的第一语义分割结果、所述第二视频帧的光流结果对应的遮挡区域信息,获取所述第一参数。

31.根据权利要求29或30所述的装置,其特征在于,所述神经网络系统包括至少一层子神经网络系统,所述第一神经网络包括至少一层第一子神经网络,所述第二神经网络包括至少一层第二子神经网络,每层所述子神经网络系统由一层第二子神经网络和一层第一子神经网络组成;

所述第二获取模块具体用于:

根据第i层的所述第二子神经网络输出的第二视频帧的光流结果、第i层的所述第一子神经网络输出的第一视频帧的语义分割结果、第i层的所述第二子神经网络输出的第二视频帧的光流结果对应的遮挡区域信息、第i层的所述第一子神经网络输出的第二视频帧的第一语义分割结果,获取第i层的所述子神经网络系统的第一参数,i为大于或等于1的整数;

所述调整模块具体用于:

根据所有层的所述子神经网络系统的第一参数之和,调整所述神经网络系统的网络参数值。

32.根据权利要求31所述的装置,其特征在于,所述第六获取模块具体用于:根据第i层的所述子神经网络系统的第一视频帧和所述第二视频帧的相似度信息、第i层的所述子神经网络系统的遮挡区域差异信息、第i层的第二视频帧的光流结果对应的遮挡区域信息,获取第i层的所述子神经网络系统的第五参数;

所述调整模块具体用于:

根据所有层的所述子神经网络系统的第一参数之和以及所有层的所述子神经网络系统的第五参数之和,调整所述神经网络系统的网络参数值。

33.根据权利要求32所述的装置,其特征在于,当i大于或等于2时,所述第i层的第二神经子网络的第二视频帧的光流结果根据第i‑1层的第一子神经网络输出的图像、第i‑1层的第二子神经网络输出的第二视频帧的光流结果、第i‑1层的第二子神经网络的网络参数确定。

34.根据权利要求30所述的装置,其特征在于,若所述第二视频帧为标注有语义分割信息的视频帧,则所述装置还包括:第七获取模块,用于根据所述第二视频帧的第一语义分割结果,以及,所述第二视频帧所标注的语义分割信息,得到第六参数;

所述调整模块具体用于:

根据所述第一参数和第六参数,调整所述神经网络系统的网络参数值。

35.根据权利要求34所述的装置,其特征在于,所述装置还包括:第八获取模块,用于获取所述神经网络系统的第七参数,所述第七参数用于表征所述第二神经网络的平滑损失;

所述调整模块具体用于:

根据所述第一参数、第五参数、第六参数和第七参数,调整所述神经网络系统的网络参数值。

36.根据权利要求35所述的装置,其特征在于,所述调整模块具体用于:根据所述第一参数、第五参数、第六参数、第七参数以及第八参数,调整所述神经网络系统的网络参数值;

其中,所述第八参数用于表征所述第二视频帧的光流结果对应的遮挡区域信息的准确程度。

37.一种视频帧处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理的第三视频帧;

处理模块,用于将所述第三视频帧输入至训练后的神经网络系统,获取所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果,所述神经网络系统为权利要求1或2所述的神经网络系统;

输出模块,用于输出所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果。

38.根据权利要求37所述的装置,其特征在于,所述第三视频帧为拍摄装置在车辆行驶过程中拍摄的周围环境视频中的视频帧,所述装置还包括:控制模块,用于根据所述第三视频帧的语义分割结果和/或所述第三视频帧的光流结果,控制所述车辆的驾驶行为。

39.一种驾驶控制方法,其特征在于,包括:驾驶控制装置获取路面图像的语义分割结果和/或光流结果,所述语义分割结果和/或光流结果采用如权利要求18或19所述的视频帧处理方法得到;

所述驾驶控制装置根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

40.一种驾驶控制装置,其特征在于,包括:获取模块,用于获取路面图像的语义分割结果和/或光流结果,所述语义分割结果和/或光流结果采用如权利要求18或19所述的视频帧处理方法得到;

驾驶控制模块,用于根据所述语义分割结果和/或光流结果输出提示信息和/或对车辆进行智能驾驶控制。

41.一种电子设备,其特征在于,包括:存储器,用于存储程序指令;

处理器,用于调用并执行所述存储器中的程序指令,执行权利要求1‑17任一项或权利要求18‑19任一项所述的方法步骤。

42.一种智能驾驶系统,其特征在于,包括:通信连接的图像采集装置、如权利要求41所述的电子设备和如权利要求40所述的驾驶控制装置,所述图像采集装置用于获取路面图像。

43.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1‑17任一项或权利要求18‑19任一项所述的方法步骤。