利索能及
我要发布
收藏
专利号: 2016106948149
申请人: 北京市商汤科技开发有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种图像分割网络模型的训练方法,包括:

获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;

对所述特征向量进行卷积处理,获取特征向量卷积结果;

对所述特征向量卷积结果进行放大处理;

判断放大后的所述特征向量卷积结果是否满足收敛条件;

若满足,则完成对用于分割图像前景和背景的卷积神经网络模型的训练;

若不满足,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

2.根据权利要求1所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

3.根据权利要求1所述的方法,其中,对所述特征向量卷积结果进行放大处理包括:将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

4.根据权利要求1-3任一项所述的方法,其中,判断放大后的所述特征向量卷积结果是否满足收敛条件包括:使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;

根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

5.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前景区域和背景区域的预测;

检验预测的前景区域和背景区域是否正确;

若不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

6.根据权利要求5所述的方法,其中,使用所述测试样本图像对所述卷积神经网络模型进行再次训练,包括:从所述测试样本图像中获取前景区域和背景区域预测不正确的样本图像;

使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

7.根据权利要求1-3任一项所述的方法,其中,获取待训练的样本图像的特征向量之前,还包括:将包括多帧样本图像的视频流输入所述卷积神经网络模型。

8.根据权利要求7所述的方法,其中,将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,还包括:确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

9.根据权利要求1-3任一项所述的方法,其中,所述卷积神经网络模型为全卷积神经网络模型。

10.一种图像分割方法,包括:

获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;

采用卷积神经网络模型检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;

其中,所述卷积神经网络采用如权利要求1-9任一所述的方法训练而得的卷积神经网络模型。

11.根据权利要求10所述的方法,其中,所述视频中的图像为直播类视频中的图像。

12.根据权利要求10或11所述的方法,其中,所述待检测的图像包括视频流中的多帧图像。

13.一种视频图像处理方法,包括:

采用如权利要求1-9任一所述的方法训练而得的卷积神经网络模型检测视频图像,或者,采用如权利要求10-12任一所述的方法检测视频图像,得到前景背景检测结果;

根据所述前景背景检测结果在所述视频图像上展示业务对象。

14.根据权利要求13所述的方法,其中,根据所述前景背景检测结果在所述视频图像上展示业务对象,包括:根据所述前景背景检测结果确定所述视频图像中的背景区域;

确定待展示的业务对象;

在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。

15.根据权利要求13所述的方法,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。

16.根据权利要求15所述的方法,其中,所述直播类视频图像的前景区域为人物所在的区域。

17.根据权利要求15或16所述的方法,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。

18.根据权利要求13-16任一所述的方法,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。

19.一种图像分割网络模型的训练装置,包括:

向量获取模块,用于获取待训练的样本图像的特征向量,其中,所述样本图像为包含有前景标注信息和背景标注信息的样本图像;

卷积获取模块,用于对所述特征向量进行卷积处理,获取特征向量卷积结果;

放大模块,用于对所述特征向量卷积结果进行放大处理;

判断模块,用于判断放大后的所述特征向量卷积结果是否满足收敛条件;

执行模块,用于若所述判断模块的判断结果为满足收敛条件,则完成对用于分割图像前景和背景的卷积神经网络模型的训练;若所述判断模块的判断结果为不满足收敛条件,则根据放大后的所述特征向量卷积结果调整所述卷积神经网络模型的参数并根据调整后的所述卷积神经网络模型的参数对所述卷积神经网络模型进行迭代训练,直至迭代训练后的特征向量卷积结果满足所述收敛条件。

20.根据权利要求19所述的装置,其中,所述放大模块,用于通过对所述特征向量卷积结果进行双线性插值,放大所述特征向量卷积结果。

21.根据权利要求19所述的装置,其中,所述放大模块,用于将所述特征向量卷积结果放大到放大后的特征向量卷积结果对应的图像的大小与原始图像大小一致。

22.根据权利要求19-21任一项所述的装置,其中,所述判断模块,用于使用设定的损失函数计算放大后的所述特征向量卷积结果和预定的标准输出特征向量的损失值;根据所述损失值判断放大后的所述特征向量卷积结果是否满足收敛条件。

23.根据权利要求19-21任一项所述的装置,其中,所述装置还包括:预测模块,用于获取测试样本图像,使用训练后的所述卷积神经网络模型对所述测试样本图像进行前景区域和背景区域的预测;

检验模块,用于检验预测的前景区域和背景区域是否正确;

再训练模块,用于若所述检验模块的检验结果为不正确,则使用所述测试样本图像对所述卷积神经网络模型进行再次训练。

24.根据权利要求23所述的装置,其中,所述再训练模块,用于若所述检验模块的检验结果为不正确,则从所述测试样本图像中获取前景区域和背景区域预测不正确的样本图像;使用预测不正确的样本图像对所述卷积神经网络模型进行再次训练,其中,对所述卷积神经网络模型进行再次训练的所述预测不正确的样本图像包含有前景信息和背景信息。

25.根据权利要求19-21任一项所述的装置,其中,所述装置还包括:视频流模块,用于在所述向量获取模块获取待训练的样本图像的特征向量之前,将包括多帧样本图像的视频流输入所述卷积神经网络模型。

26.根据权利要求25所述的装置,其中,所述视频流模块,还用于在将包括多帧样本图像的视频流输入所述卷积神经网络模型之前,确定所述视频流的多个关键帧的图像为样本图像,对所述样本图像进行前景区域和背景区域的标注。

27.根据权利要求19-21任一项所述的装置,其中,所述卷积神经网络模型为全卷积神经网络模型。

28.一种图像分割装置,包括:

第一获取模块,用于获取待检测的图像,其中,所述图像包括静态图像或视频中的图像;

第二获取模块,用于采用卷积神经网络模型检测图像,获得所述图像的前景区域的预测信息和背景区域的预测信息;

其中,所述卷积神经网络采用如权利要求19-27任一所述的装置训练而得的卷积神经网络模型。

29.根据权利要求28所述的装置,其中,所述视频中的图像为直播类视频中的图像。

30.根据权利要求28或29所述的装置,其中,所述待检测的图像包括视频流中的多帧图像。

31.一种视频图像处理装置,包括:

检测模块,用于采用如权利要求19-27任一所述的装置训练而得的卷积神经网络模型检测视频图像,或者,采用如权利要求28-30任一所述的装置检测视频图像,得到前景背景检测结果;

展示模块,用于根据所述前景背景检测结果在所述视频图像上展示业务对象。

32.根据权利要求31所述的装置,其中,所述展示模块,用于根据所述前景背景检测结果确定所述视频图像中的背景区域;确定待展示的业务对象;在确定的所述背景区域采用计算机绘图方式绘制所述待展示的业务对象。

33.根据权利要求31所述的装置,其中,所述业务对象为包含有语义信息的特效;所述视频图像为直播类视频图像。

34.根据权利要求33所述的装置,其中,所述直播类视频图像的前景区域为人物所在的区域。

35.根据权利要求33所述的装置,其中,所述直播类视频图像的背景区域为除了人物所在的区域之外的至少局部区域。

36.根据权利要求31-35任一所述的装置,其中,所述业务对象包括包含广告信息的以下至少一种形式的特效:二维贴纸特效、三维特效、粒子特效。

37.一种终端设备,包括:第一处理器、第一存储器、第一通信接口和第一通信总线,所述第一处理器、所述第一存储器和所述第一通信接口通过所述第一通信总线完成相互间的通信;

所述第一存储器用于存放至少一可执行指令,所述可执行指令使所述第一处理器执行如权利要求1-9任一项所述的图像分割网络模型的训练方法对应的操作。

38.一种终端设备,包括:第二处理器、第二存储器、第二通信接口和第二通信总线,所述第二处理器、所述第二存储器和所述第二通信接口通过所述第二通信总线完成相互间的通信;

所述第二存储器用于存放至少一可执行指令,所述可执行指令使所述第二处理器执行如权利要求10-12任一项所述的图像分割方法对应的操作。

39.一种终端设备,包括:第三处理器、第三存储器、第三通信接口和第三通信总线,所述第三处理器、所述第三存储器和所述第三通信接口通过所述第三通信总线完成相互间的通信;

所述第三存储器用于存放至少一可执行指令,所述可执行指令使所述第三处理器执行如权利要求13-18任一项所述的视频图像处理方法对应的操作。