1.一种未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,包括:状态向量定义步骤:获取移动机器人的目标方向、目标距离、移动速度及障碍物距离,根据障碍物距离生成一障碍物特征向量,基于所述目标方向、目标距离、移动速度及障碍物特征向量定义一状态向量;
模型构建步骤:构建一路径规划模型,所述路径规划模型包括策略网络;
动作向量生成步骤:初始化一隐藏特征向量 并将其与移动机器人的状态向量输入所述策略网络得到隐藏特征向量 和动作向量 ;
动作执行步骤:所述移动机器人根据所述动作向量 执行相应动作;
其中,所述策略网络包括:
输入层,用于输入状态向量和隐藏特征向量;
状态演化层,包括多个CFC单元,所述CFC单元用于通过解析近似方法对输入的所述状态向量和所述隐藏特征向量进行动态响应建模,并输出动作向量和更新后的隐藏特征向量;
输出层,用于通过激活函数限制所述动作向量的范围;
其中,所述路径规划模型还包括目标策略网络、评估网络和目标评估网络;
所述目标策略网络根据下一时刻移动机器人的状态向量 及所述隐藏特征向量 得到下一时刻所述移动机器人的目标动作向量 ;
所述评估网络根据所述状态向量 和所述动作向量 生成评估值 和评估值;
所述目标评估网络根据所述状态向量 和所述动作向量 生成评估值和评估值 ;
其中,所述模型构建步骤还包括:
根据所述动作向量 和所述状态向量 计算避障奖励值,将所述避障奖励值、所述状态向量 、所述隐藏特征向量 、所述动作向量 、所述状态向量、所述隐藏特征向量 组成六元组存储至经验回放区中,根据所述经验回放区对所述路径规划模型进行训练;
其中,所述方法还包括:
评估网络更新步骤:根据所述评估值 、评估值 和所述避障奖励值计算目标值 ,基于所述评估值 、评估值 和所述目标值 计算损失函数,根据所述损失函数更新所述评估网络的权重参数 ;
其中,所述避障奖励值的计算模型为:
;
;
;
;
;
;
;
其中, 为接近目标点的奖励值; 为接近障碍物的奖励值; 为第 个方向的避障奖励值; 为 个方向的避障奖励值的总和; 为当前时刻的目标距离和目标方向; 为上一时刻的目标距离和目标方向; 为目标距离; 为目标距离的阈值; 为障碍物距离; 为障碍物距离的阈值;为放大系数;为权重系数;
为第 个方向避障奖励的权重系数; 为归一化后的第 个方向的激光雷达距离;
为未经过归一化处理的第 个方向的激光雷达距离; 为预测安全距离; 为移动机器人的最大移动速度; 为移动机器人的运动时间间隔; 为归一化后的预测安全距离。
2.根据权利要求1所述的未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,所述方法还包括:策略网络更新步骤:通过梯度下降算法更新所述策略网络的权重参数 ,根据延迟步数更新所述策略网络,并根据所述策略网络生成的所述动作向量 将所述评估网络计算输出的所述目标值 最大化。
3.根据权利要求1所述的未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,所述目标值 的计算模型为:;
其中,为折扣因子;为策略噪声。
4.根据权利要求3所述的未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,所述损失函数的计算模型为:;
;
其中, 为从所述经验回放区中采样的最小样本数;为从所述经验回放区中采样的第个样本。
5.根据权利要求1‑4中任一项所述的未知环境下基于深度强化学习的连续空间路径规划方法,其特征在于,所述动作执行步骤具体为:根据所述动作向量 得到所述移动机器人的线速度和角速度,基于一两轮差速模型计算所述移动机器人的驱动轮速度,所述移动机器人根据所述线速度、角速度和驱动轮速度执行相应动作。