买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种移动机器人动态避障方法、系统、设备及介质

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种移动机器人动态避障方法、系统、设备及介质

￥30000

专利号： 2024100553713

申请人：辽宁工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种移动机器人动态避障方法，其特征在于，包括：

构建机器人运动状态空间，定义目标函数；所述目标函数用于预测下一运动状态下的机器人位置信息；

基于所述目标函数，采用学习因子、降重因子以及退火因子对深度Q学习网络算法的经验进行改进，生成改进的三因子策略；所述学习因子用于控制采样在随机策略和贪婪策略的偏好，以提升成功经验采样概率；所述降重因子用于降低重复采样概率；所述退火因子用于通过调整经验权重降低采样误差；

根据所述改进的三因子策略对经验赋予权重；

根据所述权重更新Q目标网络状态‑动作值函数，确定改进后的Q目标网络状态‑动作值函数；所述Q目标网络状态‑动作值函数是根据所述目标函数，通过在经验回放池中采集经验确定的；所述经验回放池用于存入五元组，所述五元组包括当前状态、当前动作、当前状态的奖励值、下一状态以及折扣因子；

根据所述改进后的Q目标网络状态‑动作值函数寻找最优动作执行策略，构建三因子采样深度Q网络避障模型；

根据所述三因子采样深度Q网络避障模型规划避障路径。

2.根据权利要求1所述的移动机器人动态避障方法，其特征在于，所述学习因子的取值更新过程为：初始采样时，设置学习因子α＝0；

将每10次避障过程采集的经验作为一个经验组，并对每个经验组赋予相同的α值；

当所述经验组中的避障成功经验占比高于70％时，在采集下一个经验组时保持α值不变；

当所述经验组中的避障成功经验占比不高于70％时，改变α值。

3.根据权利要求2所述的移动机器人动态避障方法，其特征在于，加入所述学习因子后，所述经验回收池中第i条经验被采样的概率P(i)为：其中，pi为第i条经验的优先级，所述优先级为时序差分误差TDerror由大到小的序号的倒数，TDerror＝|r+γmaxQ(s',a')‑Q(s,a)|，r为当前状态的奖励值，γ为折扣因子，Q(s',a')为Q目标网络对应的行动价值，s'为下一状态，a'为下一动作，Q(s,a)为Q估计网络对应的行动价值，s为当前状态，a为当前动作；pk为第k条经验的优先级，k为经验样本总数。

4.根据权利要求3所述的移动机器人动态避障方法，其特征在于，加入所述降重因子*后，所述经验回收池中第i条经验被采样的概率P(i) 为：其中，λ为降重因子， A为每条经验被重复采样的次数。

5.根据权利要求4所述的移动机器人动态避障方法，其特征在于，加入所述退火因子后，所述权重θi为：其中，β为退火因子， N为采样次数，K为经验回收池的经验容量。

6.根据权利要求5所述的移动机器人动态避障方法，其特征在于，所述改进后的Q目标网络状态‑动作值函数Qπ(s',a'|θi)为：其中，S为状态集，为当前状态到

下一状态的转移概率；E为期望值；为当前状态到结束状态的累计奖励值。

7.根据权利要求6所述的移动机器人动态避障方法，其特征在于，在每个状态下，动作执行策略π(a|s)为：* *

π(a|s)＝P[A＝a|S＝s]；其中，P为任意动作和状态下的经验采样概率。

8.一种移动机器人动态避障系统，其特征在于，包括：

目标函数定义模块，用于构建机器人运动状态空间，定义目标函数；所述目标函数用于预测下一运动状态下的机器人位置信息；

改进的三因子策略生成模块，用于基于所述目标函数，采用学习因子、降重因子以及退火因子对深度Q学习网络算法的经验进行改进，生成改进的三因子策略；所述学习因子用于控制采样在随机策略和贪婪策略的偏好，以提升成功经验采样概率；所述降重因子用于降低重复采样概率；所述退火因子用于通过调整经验权重降低采样误差；

权重确定模块，用于根据所述改进的三因子策略对经验赋予权重；

改进后的Q目标网络状态‑动作值函数确定模块，用于根据所述权重更新Q目标网络状态‑动作值函数，确定改进后的Q目标网络状态‑动作值函数；所述Q目标网络状态‑动作值函数是根据所述目标函数，通过在经验回放池中采集经验确定的；所述经验回放池用于存入五元组，所述五元组包括当前状态、当前动作、当前状态的奖励值、下一状态以及折扣因子；

三因子采样深度Q网络避障模型构建模块，用于根据所述改进后的Q目标网络状态‑动作值函数寻找最优动作执行策略，构建三因子采样深度Q网络避障模型；

避障路径规划模块，用于根据所述三因子采样深度Q网络避障模型规划避障路径。

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1‑7中任一项所述的移动机器人动态避障方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的移动机器人动态避障方法。