买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种改进的强化学习AGV路径规划方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种改进的强化学习AGV路径规划方法

￥22200

专利号： 2023115611079

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种改进的强化学习AGV路径规划方法，其特征在于，包括以下步骤：步骤1：搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模；

步骤2：设计基于三维仿真环境下AGV路径规划的状态空间和动作空间；

步骤3：基于步骤1和2设计奖励值函数；

步骤4：设计SR‑PPO算法，将样本正则化项添加到PPO算法的目标函数中，提高PPO算法的策略选择性，进而增加AGV训练过程对工作环境的探索能力；

步骤5：基于SR‑PPO算法设计SR‑ALR‑PPO算法，将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合，自适应选择策略网络参数更新的学习率，提高策略的性能和收敛速度，进而提高AGV路径规划模型在训练阶段的学习速度；

步骤6：基于SR‑ALR‑PPO算法建立路径规划模型并进行训练，得到训练好的路径规划模型；

步骤6包括以下子步骤：

步骤6.1、初始化强化学习算法的网络参数，包括策略网络参数κ和价值网络参数δ的初始化；策略网络包括Actor_new网络和Actor_old网络，其策略函数分别为π(at|st；κ)和π(at|st；κold)；

步骤6.2、初始化环境信息，包括AGV的初始位姿、静态障碍物位置、动态障碍物位置及目标位置；

步骤6.3、AGV通过传感器获取当前的状态信息st，根据策略函数π(at|st；κ)，选取AGV的可执行动作at，即选取合适的线速度vt和角速度ωt；

步骤6.4、AGV执行动作at后进入新状态st+1，并根据设计的奖励值函数R对当前动作at进行价值评估，得到奖励值rt；

步骤6.5、将样本数据(st,at,rt,st+1)储存在经验池中，利用经验池中的样本数据来计算样本正则化项，该样本正则化项作为附加项作用于价值网络的动作价值函数和状态价值函数，同时也作为目标函数的一部分；然后，基于样本数据计算t时刻的动作价值函数Q(st,at；δ)和目标函数J(κ)，进而计算时序差分误差Loss(δ)和目标函数梯度步骤6.6、根据时序差分误差Loss(δ)更新价值网络参数δ，在目标函数梯度更新策略网络参数κ时引入自适应学习率α'，即能够自适应的选择参数更新的方向；

步骤6.7、判断是否达到回合结束条件，包括AGV与障碍物发生碰撞、到达目标点；若达到结束条件，则结束该回合，跳转至步骤6.2；否则返回步骤6.3，继续训练；

步骤6.8、设置合理的训练回合数，判断策略函数是否收敛到最优策略π，若是则保存训练完成的路径规划模型，否则跳转至步骤6.2，继续训练。

2.根据权利要求1所述的一种改进的强化学习AGV路径规划方法，其特征在于，在步骤1中，构建AGV模型的三维仿真环境，包括AGV车体、障碍物和目标物，障碍物用于模拟AGV运行环境中的各式各样的实际物体，目标物用于AGV目标点的标志。

3.根据权利要求2所述的一种改进的强化学习AGV路径规划方法，其特征在于，步骤2包括以下子步骤：步骤2.1、状态空间设计包括障碍物信息、AGV位姿信息和目标点的位姿信息；障碍物信息包括激光雷达的点云信息和视觉图像信息；AGV位姿信息和目标点的位姿信息用数组表示为：[vt,ωt,dt,θt]；

其中，vt表示t时刻AGV的线速度，ωt表示t时刻AGV的角速度，dt表示t时刻AGV相对目标位置的距离，θt表示t时刻AGV相对目标位置的角度差值；

步骤2.2、动作空间设计根据AGV的运动学模型，将AGV的动作进行离散化处理，将AGV动作输出a设置为线速度v和角速度ω的连续空间：a＝[v,ω]；

线速度v的取值范围为[‑vmax,+vmax](m/s)，角速度ω的取值范围为[‑ωmax,+ωmax](rad/s)。

4.根据权利要求3所述的一种改进的强化学习AGV路径规划方法，其特征在于，在步骤3中，在初始状态下，设置一个初始的奖励值Ri：Ri＝η0；

其中，η0为常系数；

设置相邻两时刻的AGV与目标位置的距离差作为密集奖励值Rd1：Rd1＝η1×(dt‑1‑dt)；

其中，dt和dt‑1分别表示当前t时刻和t‑1时刻AGV相对目标位置的距离，η1为大于0的常系数；

设置相邻两时刻的AGV与最近障碍物的距离差作为密集奖励值Rd2：*

其中，和分别表示当前t时刻和t‑1时刻相对AGV距离最近的障碍物的距离，d 为AGV与障碍物的阈值距离，η2和η3为大于0的常系数；

设置AGV与障碍物发生碰撞时的惩罚和到达目标位置时的奖励为稀疏奖励值，稀疏奖励值Re的表达式为：1

其中，η5和η6为大于0的常系数，dt表示当前t时刻AGV与障碍物或目标位置最近的距离，dmin表示AGV与障碍物发生碰撞的距离阈值，dg表示AGV达到目标位置的距离阈值；

最终奖励值函数R表达式为：

R＝Rd1+Rd2+Ra+Re+Ri。

5.根据权利要求4所述的一种改进的强化学习AGV路径规划方法，其特征在于，步骤4包括以下子步骤：步骤4.1、设计基于AGV动作样本数据的正则化项，定义样本正则化项T(π(a|s))如下所示：T(π(a|s))＝Ea～π(a|s)[f(a)]+Ea,a'～π(a|s)[g(a,a')]；

其中，s表示当前时刻的状态，a和a'表示相邻两时刻的动作样本，π(a|s)表示在状态s下动作a的概率密度；函数f(a)定义了一种与状态无关的额外奖励，它根据先验知识进行探索，用于引导动作往最优动作序列聚集；函数g(a,a')模拟了动作之间的一种内在关系，度量相邻两动作之间的广义相对距离，用于均衡动作之间的概率分布；

步骤4.2、因利用样本正则化在处理大规模数据时依然会面临计算复杂度较高的问题，为了避免上述问题，所以使用无偏估计即在重复抽样的情况下，估计值的平均值等于总体参数的真实值从而近似得到样本正则化项如下所示：i j

其中，N为采样动作样本个数，a ,a为来自动作概率密度π(a|s)的动作样本；

i i j

步骤4.3、基于步骤4.2得到的样本正则化项，定义f(a)和g(a ,a)如下所示：其中，u为均匀分布，为非负函数，其表达式如下所示：σ

＝z0<σ<1；

其中，σ为常系数；

i i j

将f(a )和g(a ,a)代入带步骤4.2的样本正则化公式中，得到无偏估计近似的样本正则化项如下所示：步骤4.4、将样本正则化项添加到PPO算法的目标函数中，定义该目标函数JSR‑PPO(κ)下的动作价值函数和状态价值函数，如下所示：其中，st和at表示t时刻的状态和动作，折扣因子γ∈(0,1]，ξ表示正则项的权重超参数，R(st,at)表示t时刻的奖励函数，Qπ(st,at)表示基于累积奖励的动作价值函数；

因此基于样本正则化PPO算法SR‑PPO的目标函数JSR‑PPO(κ)如下所示：其中，κ表示当前策略网络参数，κold表示旧策略网络参数，Aπ表示为优势函数，即动作价值函数和状态价值函数的差值，ρπ(κ)表示为新旧策略的比值，其表达式为：clip(ρπ(κ),1‑ε,1+ε)表示为截断函数，将ρπ(κ)截断在(1‑ε,1+ε)中，其中ε为超参数；

步骤4.5、针对SR‑PPO算法策略的更新，其策略网络参数κ遵循梯度上升来更新，如下所示：其中，κ'表示更新后的策略网络参数，α为策略网络学习率，表示梯度。

6.根据权利要求5所述的一种改进的强化学习AGV路径规划方法，其特征在于，步骤5包括以下子步骤：步骤5.1、基于KL散度近似计算Fisher信息矩阵，首先根据SR‑PPO算法，使用评分函数sπ(κ)评估κ的优劣，sπ(κ)表达式如下所示：其中，x表示动作和状态的集合，即样本数据；

评分函数的协方差如下所示：

cov(sπ,sπ)＝E[(sπ‑E[sπ(κ)])·(sπ‑E[sπ(κ)]) ]；

对评分函数求期望：

由上式可知评分函数的期望Eπ[sπ(κ)]为0，将评分函数期望带入协方差公式中，得到公式如下所示：T

cov(sπ,sπ)＝E[(sπ‑0)·(sπ‑0) ]；

以矩阵形式表征便得到Fisher信息矩阵：

其中，为梯度的转置；

使用训练数据给出的经验样本分布来近似Fisher信息矩阵中的期望值，经验Fisher信息矩阵如下所示：步骤5.2、针对Fisher信息矩阵与评分函数Hessian矩阵的关系，评分函数的Hessian矩阵Hlogπ(x|κ)由评分函数的雅克比矩阵展开得到，评分函数的Hessian矩阵如下所示：

对评分函数的Hessian矩阵求期望，如下所示：基于步骤5.1得到Fisher信息矩阵与评分函数Hessian矩阵的关系：F＝‑Ex～π[Hlogπ(x|κ)]；

步骤5.3、若存在两个随机概率分布π(x|κ′)和π(x|k)，则KL散度表示为：KL散度关于κ的一阶梯度如下所示：

KL散度关于κ的二阶梯度如下所示：

基于步骤5.1和5.2可知，Fisher信息矩阵等于SR‑PPO算法KL散度的二阶梯度，如下所示：步骤5.4、针对SR‑ALR‑PPO算法进行策略更新，自适应选择策略网络参数更新的学习率；首先将策略网络参数更新方向视为k，则：定义

对目标参数的KL散度在κ处进行泰勒二阶展开如下所示：其中，根据步骤4所示，可知KL(κ||κ)＝0，此时KL散度达到极小值，因此KL散度的一阶梯度在κ′＝κ时为0，即因此得到KL散度泰勒二阶展开公式的近似表示：

采用KL散度约束进行策略优化，为了能够准确找到参数更新方向，期望得到一个最优*的策略网络参数更新方向k，定义公式如下所示：其中，KL散度约束参数μ为常数，0＜μ＜1；KL[κ||κ']≤μ为求解最优更新方向的约束项，基于SR‑ALR‑PPO算法的策略网络学习率α更新后，得到自适应学习率α'的表达式为：其中，KL散度约束参数μ可根据系统性能人为设置，最终得到算法的更新方式，如下所示：