利索能及
我要发布
收藏
专利号: 2022112226925
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:首先,在智能车采用当前策略探索过程中,引入安全指示器对当前策略输出的动作进行安全修正得到近似安全动作;其次,智能车执行近似安全动作,并收集经验样本存入经验池;然后,根据经验池中的经验样本,利用精确惩罚优化方法对当前策略进行优化,得到优化后的策略;最后,将优化后的策略作为当前策略;

所述方法包括如下具体步骤:

步骤1:建立策略网络、价值网络和安全指示器,并初始化网络参数;

步骤2:建立目标网络,并初始化网络参数;

步骤3:用安全指示器对策略网络输出的动作进行安全修正得到近似安全动作;

步骤4:智能车执行近似安全动作,收集经验样本;

步骤5:更新价值网络参数;

步骤6:更新安全指示器参数;

步骤7:更新策略网络参数;

步骤8:更新目标网络参数;

步骤9:重复步骤3至步骤8直到获得最优策略;

所述步骤1中,建立策略网络πθ,建立安全指示器Cω,建立2个相互独立的价值网络Qv1和Qv2,其中:θ、ω和v1、v2分别表示策略网络、安全指示器和2个价值网络的参数;所有网络和安全指示器均为含有2个隐藏层且隐藏层神经元数量为256的多层感知机结构,其中:策略网络的输入维度为状态维度,输出维度为动作维度;价值网络和安全指示器的输入维度为状态维度和动作维度的和,输出维度为1;网络参数的初始化方式为随机初始化;

所述步骤2中,分别建立策略网络、安全指示器和两个价值网络对应的目标网络 Cω和 其中: 和 分别表示策略网络、安全指示器和两个价值网络对应的目标网络的参数;目标网络结构与所对应的原网络结构一致,目标网络的参数的初始化方法为:将所对应的原网络的参数(ν1,ν2,ω,θ)直接赋值给目标网络的参数所述步骤3中,首先策略网络根据当前状态s输出当前动作πθ(s),然后安全指示器对πθ(s)进行安全修正得到近似安全动作,具体修正方式如下:首先,计算

*

然后,计算a=πθ(s)‑α·λgω(s);

* +

其中,λ 表示拉格朗日最优乘子,(·) 表示线性整流操作,δ表示安全阈值,表示安全指示器Cω在a'处的导数,a表示安全修正后得到的近似安全动作,a'表示求导处的动作,α表示安全修正系数, 表示在a'处进行求导;

所述步骤4中,首先,智能车在当前状态s下执行近似安全动作a之后,根据状态转移概率 进入到下一状态s',并获得奖励r和代价c;然后,将经验样本{s,a,r,c,s'}存入经验池 最后,将s'作为新的当前状态s;

所述步骤5中,利用经验池 中的经验样本对两个价值网络的参数v1和v2进行更新,更新方法为通过梯度下降最小化如下的损失函数:target

其中, 表示期望符号,Q 表示价值网络更新过程中的时序差分目标,γ表示折扣因子,表示更新价值网络的参数时

采样的下一动作,ε表示采样噪声, 表示均值为0、方差为σ的正态分布,clip表示裁剪操作,ζ表示裁剪的范围;

利用梯度下降法对参数v1和v2进行更新,参数v1和v2的调整量为:其中,ηr表示参数v1和v2的学习率, 表示对参数v1进行求导, 表示对参数v2进行求导;

所述步骤6中,利用经验池 中的经验样本对安全指示器的参数ω进行更新,更新方法为通过梯度下降最小化如下的损失函数:其中, 表示安全指示器对应的目标网络在 处的输出, 是策略网络对应的目标网络在s'处的输出,Cω(s,a)表示安全指示器在(s,a)的输出;

参数ω的调整量为:

其中,ηc表示参数ω的学习率, 表示对参数ω进行求导;

所述步骤7中,用经验池 中的经验样本对策略网络参数θ进行更新,更新方法为精确惩罚优化,目标函数如下:其中,Qν(s,πθ(s))可以表示Qν1(s,πθ(s))或Qν2(s,πθ(s))处的输出,κ表示精确惩罚系数;

精确惩罚优化过程中,参数θ的调整量为:

其中,ηπ表示参数θ的学习率, 表示对策略网络的参数θ进行求导;

所述步骤8中,更新目标网络的参数时采用如下的更新方式:首先,分别计算:

然后,将上述计算的结果分别赋值给: 和

其中,表示目标网络更新率。

2.根据权利要求1所述一种基于近似安全动作的自动驾驶强化学习方法,其特征在于:所述步骤9中,重复步骤3至步骤8,不断更新各网络以及安全指示器的参数,并将最终更新得到的策略网络作为最优策略用于智能车的部署。