利索能及
我要发布
收藏
专利号: 2023108908108
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-27
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,包括以下步骤:步骤1、构建AGV动态和静态障碍物模型并进行仿真环境建模;

步骤2、设计强化学习算法的环境状态输入,在激光雷达扫描的基础上设计相机检测系统并拟合扰动因子作为状态输入之一;

步骤3、设计双层决策模型,双层决策模型包括主决策层和副决策层,主决策层采用DDPG算法,副决策层采用DQN算法,主决策层和副决策层分别对动作a(v,θ)和a(θ)进行决策控制,将主决策层和副决策层的决策输出做判断融合,作为最终动作步骤4、设计强化学习奖励值函数,通过不同状态设置对应奖励值函数引导AGV远离障碍物并以最优路径到达目标点;

步骤5、对双层决策模型初始化,即初始化双层决策模型下DDPG和DQN内部网络及其权重参数以及初始化经验池;

步骤6,双层决策模型下持续训练AGV避障能力;

所述步骤3包括以下子步骤:

步骤3.1、根据强化学习算法构建双层决策模型,将动作a分解为线速度v∈(‑1,1)和转角θ∈(‑90,90),主决策层对动作a(v,θ)进行决策输出,副决策层对a(θ)进行决策控制;

步骤3.2、针对于副决策层,对连续性的角度θ离散化为固定角速度ω,其映射关系如下:步骤3.3、基于步骤3.1和步骤3.2,主决策层输出决策结果为a(v,θ),副决策层输出决策结果为a′(ω),对此需将角速度值ω反向转换得到对应角度区间θ′,表达式为:判断主决策层的结果θ与副决策层的结果θ′所在区间关系并输出 定义为:其中,τ1和τ2为双层决策系数,τ1>1,0<τ2<1。

2.根据权利要求1所述的一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,所述步骤1中,构建AGV运行车间三维仿真环境,包括AGV车体、目标物和障碍物,目标物用于AGV目标点的标志,障碍物用于不同状态的模型来模拟AGV运行环境中各式各样的实际物体。

3.根据权利要求1所述的一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,所述步骤2中,所述相机检测系统具体为:在AGV上设置激光雷达和相机,在雷达全局扫描周围障碍物的基础上设计相机局部检测,在相机视野范围内设置距离小于阈值d0的区域为有效检测区域,相机仅对有效检测区域内的障碍物进行检测;

所述扰动因子表达式为:

D

其中r即为扰动因子, 为阈值范围内第i个障碍物的扰动因子,为阈值范围内所有障碍物的累积扰动因子,ξ为扰动因子常系数,di为第i个障碍物与AGV的相对距离。

4.根据权利要求1所述的一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,所述步骤4中,初始状态下,为了促进AGV对环境的探索学习能力,设置一个初始的奖励值R0:R0=η0;

其中,η0为大于0的常数;

为了激励并促进AGV向目标点移动,设置奖励值R1,当AGV发生碰撞时会给一个η1的惩罚值,当AGV到达目标点时给一个η2的奖励值,其表达式为:其中,η1,η2为大于0的常数;

为了增加AGV在障碍物周围的密集奖励值和能够尽量躲避障碍物并以最优路径到达目标点,设置奖励值R2:* *

其中,η3,η4为大于0的常数,且η4>η3,di为AGV与障碍物的相对距离,d为设定的雷达扫描的距离阈值;

D

最终奖励值函数R表达式为:

D D

R=R0+R1+R2+r。

5.根据权利要求1所述的一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,所述步骤5包括以下子步骤:步骤5.1、初始化DDPG算法,初始化Critic网络Q(s,a|κ)和Actor网络μ(s,|δ)以及网络权重参数κ和δ,初始化目标Critic网络Q′和目标Actor网络μ′以及网络权重参数κ′,δ′;

步骤5.2、初始化DQN算法,初始化现实价值网络QDQN(s,a|λ)以及网络权重参数λ,初始化目标网络Q′DQN,以及网络权重参数λ′;

步骤5.3、DDPG和DQN算法依赖经验池B来训练神经网络,每条经验数据定义为:D

(st,at(v,θ),Rt ,st+1);

D

其中st为t时刻观测到的状态,st+1为t+1时刻的状态,at(v,θ)为t时刻的动作,Rt为t时刻的奖励值;

*

随机初始化容量为N的经验池。

6.根据权利要求1所述的一种基于视觉感知的强化学习双层决策AGV避障方法,其特征在于,所述步骤6包括以下子步骤:步骤6.1、DDPG算法训练开始时,即初始时刻,根据当前观测状态选取动作,动作值函数为:a1(v,θ)=μ(s1|δ)+n1;

其中,n1为初始时刻的随机噪声;

D

Critic网络对该状态下动作的评估值q为:D D

q=Q(s,μ(s|δ)|κ)+r;

目标Critic网络的动作价值函数 为:其中j表示为时间序列的第j条经验池数据,折扣因子γ∈(0,1],在随机抽取N条经验数据后,通过最小化损失函数来更新Critic网络:对L(δ|κ)做梯度下降:

得到网络参数更新为:

步骤6.2、DQN算法训练开始时,通过当前环境状态并遵循最优现实价值网络获取动作:a′(ω)=maxa Q(s,a′(ω)|λ);

目标价值网络近似估计动作价值 为:

用二者的平方差作为损失函数L(λ):

价值网络的网络参数λ是通过计算损失函数L(λ)的梯度,并对λ做梯度下降进行更新的;

步骤6.3、基于步骤5和步骤6得到DDPG决策结果a(v,θ)和DQN决策结果a′(ω),经步骤3得到最后决策结果 同时获取累计奖励值,经过不断地迭代训练,网络参数更新至最优状态,得到的奖励值维持在较高水平。