利索能及
我要发布
收藏
专利号: 2021114052124
申请人: 上海商汤智能科技有限公司
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-10-25
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种神经网络训练方法,其特征在于,包括:获取多张样本图像;

针对所述多张样本图像中的每张样本图像,基于所述样本图像对应的第一视觉特征,确定所述样本图像的结构化描述信息;

将所述多张样本图像输入待训练的目标神经网络,经过所述待训练的目标神经网络对所述多张样本图像进行处理,分别得到每张样本图像对应的预测视觉特征;

基于所述预测视觉特征和所述结构化描述信息,生成第一训练损失,并利用所述第一训练损失对所述待训练的目标神经网络进行训练,直到满足预设训练条件,得到训练好的目标神经网络。

2.根据权利要求1所述的方法,其特征在于,所述基于所述样本图像对应的第一视觉特征,确定所述样本图像的结构化描述信息,包括:确定所述样本图像的第一视觉特征;

基于所述样本图像对应的第一视觉特征,确定所述样本图像的属性信息;

基于所述样本图像的属性信息,确定所述样本图像的结构化描述信息。

3.根据权利要求2所述的方法,其特征在于,所述基于所述样本图像对应的第一视觉特征,确定所述样本图像的属性信息,包括:获取至少一个预设属性类别,以及每个预设属性类别对应的至少一个有效属性值;

针对每个预设属性类别,分别确定所述预设属性类别对应的每个有效属性值与所述样本图像对应的第一视觉特征的相似度信息,并基于确定的所述相似度信息,确定所述样本图像对应于所述预设属性类别的目标属性值;

基于每个预设属性类别对应的目标属性值,确定所述样本图像的属性信息。

4.根据权利要求3所述的方法,其特征在于,所述分别确定所述预设属性类别对应的每个有效属性值与所述样本图像对应的第一视觉特征的相似度信息,包括:获取所述预设属性类别对应的预设文本;

基于所述预设文本和每个有效属性值,分别生成每个有效属性值对应的目标文本;

针对每个有效属性值,确定所述有效属性值对应的目标文本与所述样本图像对应的第一视觉特征的相似度信息,并将得到的相似度信息作为所述有效属性值与所述样本图像对应的第一视觉特征的相似度信息。

5.根据权利要求4所述的方法,其特征在于,所述属性信息包括所述样本图像分别对应于每个预设属性类别的属性子信息;

所述基于每个预设属性类别对应的目标属性值,确定所述样本图像的属性信息,包括:针对每个预设属性类别,将所述预设属性类别对应的目标属性值的目标文本,作为所述样本图像对应于所述预设属性类别的属性子信息。

6.根据权利要求2至5任一项所述的方法,其特征在于,所述属性信息包括所述样本图像分别对应于每个预设属性类别的属性子信息;

所述基于每张样本图像的属性信息,分别确定每张样本图像的结构化描述信息,包括:针对每张样本图像,将所述样本图像对分别应于每个预设属性类别的属性子信息进行拼接,得到所述样本图像的结构化描述信息。

7.根据权利要求3至5任一项所述的方法,其特征在于,在所述获取至少一个预设属性类别,以及每个预设属性类别对应的至少一个有效属性值之前,还包括:获取多个预设属性类别,以及每个预设属性类别对应的多个初始属性值;

针对每个预设属性类别,获取所述预设属性类别对应的每个初始属性值的出现次数,并基于所述出现次数,从所述预设属性类别对应的多个初始属性值中筛选所述预设属性类别对应的有效属性值。

8.根据权利要求1至7任一项所述的方法,其特征在于,在所述将所述多张样本图像输入待训练的目标神经网络之前,还包括:获取所述目标神经网络对应的多个预测结果信息;

分别确定每个所述预测结果信息的第一文本特征;

基于确定的所述第一文本特征,初始化所述待训练的目标神经网络的全连接层中对应于各个预测结果信息的权重参数。

9.根据权利要求1至8任一项所述的方法,其特征在于,所述基于所述预测视觉特征和所述结构化描述信息,生成第一训练损失,包括:确定所述结构化描述信息对应的第二文本特征;

基于所述预测视觉特征和所述第二文本特征,生成第一训练损失。

10.根据权利要求1至9任一项所述的方法,其特征在于,所述利用所述第一训练损失对所述待训练的目标神经网络进行训练,包括:将所述多张样本图像输入待训练的目标神经网络,经过所述待训练的目标神经网络对所述多张样本图像进行处理,分别得到每张样本图像对应的预测结果信息;

基于每张样本图像对应的所述预测结果信息和参考结果信息,生成第二训练损失;

利用所述第一训练损失和所述第二训练损失对所述待训练的目标神经网络进行训练。

11.根据权利要求10所述的方法,其特征在于,所述预测结果信息包括预测分类信息;

所述参考结果信息包括参考分类信息。

12.根据权利要求11所述的方法,其特征在于,所述多张样本图像包括多种类别的样本图像,并且,每种类别的样本图像的数量小于预设数量。

13.一种分类方法,其特征在于,包括:获取待分类的人脸图像;

将所述待分类的人脸图像输入利用权利要求1至12任一项所述的方法训练得到的目标神经网络中,经过所述目标神经网络对所述待分类的人脸图像进行处理,得到的所述待分类的人脸图像对应的人脸类别信息。

14.一种神经网络训练装置,其特征在于,包括:图像获取模块,用于获取多张样本图像;

图像处理模块,用于针对所述多张样本图像中的每张样本图像,基于所述样本图像对应的第一视觉特征,确定所述样本图像的结构化描述信息;

预测模块,用于将所述多张样本图像输入待训练的目标神经网络,经过所述待训练的目标神经网络对所述多张样本图像进行处理,分别得到每张样本图像对应的预测视觉特征;

训练模块,用于基于所述预测视觉特征和所述结构化描述信息,生成第一训练损失,并利用所述第一训练损失对所述待训练的目标神经网络进行训练,直到满足预设训练条件,得到训练好的目标神经网络。

15.一种分类装置,其特征在于,包括:信息获取模块,用于获取待分类的人脸图像;

分类模块,用于将所述待分类的人脸图像输入利用权利要求1至12任一项所述的方法训练得到的目标神经网络中,经过所述目标神经网络对所述待分类的人脸图像进行处理,得到的所述待分类的人脸图像对应的人脸类别信息。

16.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至12任一项所述的神经网络训练方法的步骤,或者执行如权利要求13所述的分类方法的步骤。

17.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至12任一项所述的神经网络训练方法的步骤,或者执行如权利要求13所述的分类方法的步骤。