利索能及
我要发布
收藏
专利号: 201911025726X
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种用于自适应调整学习率的方法,包括:初始化模型的初始的学习率和模型参数;

计算所述模型参数的梯度;

执行如下衰减步骤:根据所述梯度和所述学习率计算局部一阶导数;确定所述局部一阶导数是否满足预定条件;若满足,则根据所述梯度和所述学习率更新所述模型参数;

若不满足,则衰减所述学习率,基于衰减后的学习率继续执行上述衰减步骤。

2.根据权利要求1所述的方法,其中,所述方法还包括:执行如下训练步骤:计算更新后的模型参数的梯度;基于所述梯度继续执行上述衰减步骤,直到所述局部一阶导数满足预定条件;若所述模型满足训练完成条件,则结束训练;

若所述模型不满足训练完成条件,则根据所述梯度和所述学习率更新所述模型参数,继续执行上述训练步骤。

3.根据权利要求1所述的方法,其中,所述方法还包括:对于每个训练阶段,从该阶段的前预定数目批次训练中获取到至少一个用于更新所述模型参数的学习率,将所述至少一个用于更新所述模型参数的学习率的平均值作为该阶段其它批次训练时使用的学习率。

4.根据权利要求1所述的方法,其中,所述方法还包括:每次更新所述模型参数后,设置下次训练时初始的学习率不小于本次用于更新所述模型参数的学习率。

5.根据权利要求1-4之一所述的方法,其中,所述预定条件包括:按照当前的学习率对模型的参数进行更新,更新前后模型的函数表示满足局部凹凸性。

6.一种用于自适应调整学习率的装置,包括:初始化单元,被配置成初始化模型的初始的学习率和模型参数;

计算单元,被配置成计算所述模型参数的梯度;

衰减单元,被配置成执行如下衰减步骤:根据所述梯度和所述学习率计算局部一阶导数;确定所述局部一阶导数是否满足预定条件;若满足,则根据所述梯度和所述学习率更新所述模型参数;

循环单元,被配置成若不满足,则衰减所述学习率,基于衰减后的学习率继续执行上述衰减步骤。

7.根据权利要求6所述的装置,其中,所述装置还包括训练单元,被配置成:执行如下训练步骤:计算更新后的模型参数的梯度;基于所述梯度继续执行上述衰减步骤,直到所述局部一阶导数满足预定条件;若所述模型满足训练完成条件,则结束训练;

若所述模型不满足训练完成条件,则根据所述梯度和所述学习率更新所述模型参数,继续执行上述训练步骤。

8.根据权利要求6所述的装置,其中,所述初始化单元进一步被配置成:对于每个训练阶段,从该阶段的前预定数目批次训练中获取到至少一个用于更新所述模型参数的学习率,将所述至少一个用于更新所述模型参数的学习率的平均值作为该阶段其它批次训练时使用的学习率。

9.根据权利要求6所述的装置,其中,所述初始化单元进一步被配置成:每次更新所述模型参数后,设置下次训练时初始的学习率不小于本次用于更新所述模型参数的学习率。

10.根据权利要求6-9之一所述的装置,其中,所述预定条件包括:按照当前的学习率对模型的参数进行更新,更新前后模型的函数表示满足局部凹凸性。

11.一种用于自适应调整学习率的电子设备,包括:一个或多个处理器;

存储装置,其上存储有一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。