1.一种基于分层强化学习的无人机路径规划方法,其特征在于,包括如下步骤:步骤1:初始化深度Q网络算法、Q学习算法;
步骤2:驱动无人机从起始点移动至目标点,对深度Q网络算法、Q学习算法进行训练;
移动过程中当无人机未检测到动态障碍物时,则使用深度Q网络算法对路径进行规划,通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新;
移动过程中当无人机检测到动态障碍物时,则使用Q学习算法对路径进行规划,通过当前规划路径后Q学习算法中产生的经验元组对深度Q网络算法进行更新;
步骤3:重复步骤2直至深度Q网络算法、Q学习算法训练完成,设置无人机实际坐标、起点坐标、目标点坐标,通过训练完成的深度Q网络算法、Q学习算法对路径进行规划。
2.如权利要求1所述的基于分层强化学习的无人机路径规划方法,其特征在于,通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新时,Q学习算法使用的奖励函数公式如下:reward=η(ds‑1‑ds)
其中,η为常数;ds‑1为上一时刻无人机离目标点的距离;ds为当前时刻无人机离目标点的距离。
3.如权利要求1所述的基于分层强化学习的无人机路径规划方法,其特征在于,所述步骤2中,在深度Q网络算法、Q学习算法对路径进行规划之前,还包括:通过启发式鱼算法作为深度Q网络算法、Q学习算法在路径规划中的动作指导;其中,所述启发式鱼算法包括:行进行为过程、觅食行为过程,其中,行进行为过程为获取无人机会与周围障碍物碰撞的方向;
觅食行为过程为获取无人机朝向目标点行进的数个优先级高的方向,启发式鱼算法在数个优先级高的方向中去掉碰撞方向作为动作指导。
4.如权利要求3所述的基于分层强化学习的无人机路径规划方法,其特征在于,在获取无人机会与周围障碍物碰撞的方向时,且当障碍物为动态时,通过障碍物的运动方向和运动速度判断无人机是否会与障碍物发生碰撞。