买专利、卖专利、专利购买、专利交易、专利出售、高企申报-未知环境下基于深度强化学习的连续空间路径规划方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

未知环境下基于深度强化学习的连续空间路径规划方法

￥22200

专利号： 202510562143X

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种未知环境下基于深度强化学习的连续空间路径规划方法，其特征在于，包括：状态向量定义步骤：获取移动机器人的目标方向、目标距离、移动速度及障碍物距离，根据障碍物距离生成一障碍物特征向量，基于所述目标方向、目标距离、移动速度及障碍物特征向量定义一状态向量；

模型构建步骤：构建一路径规划模型，所述路径规划模型包括策略网络；

动作向量生成步骤：初始化一隐藏特征向量并将其与移动机器人的状态向量输入所述策略网络得到隐藏特征向量和动作向量；

动作执行步骤：所述移动机器人根据所述动作向量执行相应动作；

其中，所述策略网络包括：

输入层，用于输入状态向量和隐藏特征向量；

状态演化层，包括多个CFC单元，所述CFC单元用于通过解析近似方法对输入的所述状态向量和所述隐藏特征向量进行动态响应建模，并输出动作向量和更新后的隐藏特征向量；

输出层，用于通过激活函数限制所述动作向量的范围；

其中，所述路径规划模型还包括目标策略网络、评估网络和目标评估网络；

所述目标策略网络根据下一时刻移动机器人的状态向量及所述隐藏特征向量得到下一时刻所述移动机器人的目标动作向量；

所述评估网络根据所述状态向量和所述动作向量生成评估值和评估值；

所述目标评估网络根据所述状态向量和所述动作向量生成评估值和评估值；

其中，所述模型构建步骤还包括：

根据所述动作向量和所述状态向量计算避障奖励值，将所述避障奖励值、所述状态向量、所述隐藏特征向量、所述动作向量、所述状态向量、所述隐藏特征向量组成六元组存储至经验回放区中，根据所述经验回放区对所述路径规划模型进行训练；

其中，所述方法还包括：

评估网络更新步骤：根据所述评估值、评估值和所述避障奖励值计算目标值，基于所述评估值、评估值和所述目标值计算损失函数，根据所述损失函数更新所述评估网络的权重参数；

其中，所述避障奖励值的计算模型为：

；

其中，为接近目标点的奖励值；为接近障碍物的奖励值；为第个方向的避障奖励值；为个方向的避障奖励值的总和；为当前时刻的目标距离和目标方向；为上一时刻的目标距离和目标方向；为目标距离；为目标距离的阈值；为障碍物距离；为障碍物距离的阈值；为放大系数；为权重系数；

为第个方向避障奖励的权重系数；为归一化后的第个方向的激光雷达距离；

为未经过归一化处理的第个方向的激光雷达距离；为预测安全距离；为移动机器人的最大移动速度；为移动机器人的运动时间间隔；为归一化后的预测安全距离。

2.根据权利要求1所述的未知环境下基于深度强化学习的连续空间路径规划方法，其特征在于，所述方法还包括：策略网络更新步骤：通过梯度下降算法更新所述策略网络的权重参数，根据延迟步数更新所述策略网络，并根据所述策略网络生成的所述动作向量将所述评估网络计算输出的所述目标值最大化。

3.根据权利要求1所述的未知环境下基于深度强化学习的连续空间路径规划方法，其特征在于，所述目标值的计算模型为：；

其中，为折扣因子；为策略噪声。

4.根据权利要求3所述的未知环境下基于深度强化学习的连续空间路径规划方法，其特征在于，所述损失函数的计算模型为：；

；

其中，为从所述经验回放区中采样的最小样本数；为从所述经验回放区中采样的第个样本。

5.根据权利要求1‑4中任一项所述的未知环境下基于深度强化学习的连续空间路径规划方法，其特征在于，所述动作执行步骤具体为：根据所述动作向量得到所述移动机器人的线速度和角速度，基于一两轮差速模型计算所述移动机器人的驱动轮速度，所述移动机器人根据所述线速度、角速度和驱动轮速度执行相应动作。

推荐专利

基于深度学习的资源学习路径规划方法及装置

发明专利

面议

一种智能环境下机器人运动路径深度学习控制规划方法

发明专利

￥14000

一种实现未知环境地图构建与路径规划的扫地机器人及其使用方法

发明专利

￥15300

基于改进Kstar算法和深度学习的实时路径规划方法

发明专利

￥16700

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们