1.一种移动机器人动态避障方法,其特征在于,包括:
构建机器人运动状态空间,定义目标函数;所述目标函数用于预测下一运动状态下的机器人位置信息;
基于所述目标函数,采用学习因子、降重因子以及退火因子对深度Q学习网络算法的经验进行改进,生成改进的三因子策略;所述学习因子用于控制采样在随机策略和贪婪策略的偏好,以提升成功经验采样概率;所述降重因子用于降低重复采样概率;所述退火因子用于通过调整经验权重降低采样误差;
根据所述改进的三因子策略对经验赋予权重;
根据所述权重更新Q目标网络状态‑动作值函数,确定改进后的Q目标网络状态‑动作值函数;所述Q目标网络状态‑动作值函数是根据所述目标函数,通过在经验回放池中采集经验确定的;所述经验回放池用于存入五元组,所述五元组包括当前状态、当前动作、当前状态的奖励值、下一状态以及折扣因子;
根据所述改进后的Q目标网络状态‑动作值函数寻找最优动作执行策略,构建三因子采样深度Q网络避障模型;
根据所述三因子采样深度Q网络避障模型规划避障路径。
2.根据权利要求1所述的移动机器人动态避障方法,其特征在于,所述学习因子的取值更新过程为:初始采样时,设置学习因子α=0;
将每10次避障过程采集的经验作为一个经验组,并对每个经验组赋予相同的α值;
当所述经验组中的避障成功经验占比高于70%时,在采集下一个经验组时保持α值不变;
当所述经验组中的避障成功经验占比不高于70%时,改变α值。
3.根据权利要求2所述的移动机器人动态避障方法,其特征在于,加入所述学习因子后,所述经验回收池中第i条经验被采样的概率P(i)为:其中,pi为第i条经验的优先级,所述优先级为时序差分误差TDerror由大到小的序号的倒数,TDerror=|r+γmaxQ(s',a')‑Q(s,a)|,r为当前状态的奖励值,γ为折扣因子,Q(s',a')为Q目标网络对应的行动价值,s'为下一状态,a'为下一动作,Q(s,a)为Q估计网络对应的行动价值,s为当前状态,a为当前动作;pk为第k条经验的优先级,k为经验样本总数。
4.根据权利要求3所述的移动机器人动态避障方法,其特征在于,加入所述降重因子*后,所述经验回收池中第i条经验被采样的概率P(i) 为:其中,λ为降重因子, A为每条经验被重复采样的次数。
5.根据权利要求4所述的移动机器人动态避障方法,其特征在于,加入所述退火因子后,所述权重θi为:其中,β为退火因子, N为采样次数,K为经验回收池的经验容量。
6.根据权利要求5所述的移动机器人动态避障方法,其特征在于,所述改进后的Q目标网络状态‑动作值函数Qπ(s',a'|θi)为:其中,S为状态集, 为当前状态到
下一状态的转移概率;E为期望值; 为当前状态到结束状态的累计奖励值。
7.根据权利要求6所述的移动机器人动态避障方法,其特征在于,在每个状态下,动作执行策略π(a|s)为:* *
π(a|s)=P[A=a|S=s];其中,P为任意动作和状态下的经验采样概率。
8.一种移动机器人动态避障系统,其特征在于,包括:
目标函数定义模块,用于构建机器人运动状态空间,定义目标函数;所述目标函数用于预测下一运动状态下的机器人位置信息;
改进的三因子策略生成模块,用于基于所述目标函数,采用学习因子、降重因子以及退火因子对深度Q学习网络算法的经验进行改进,生成改进的三因子策略;所述学习因子用于控制采样在随机策略和贪婪策略的偏好,以提升成功经验采样概率;所述降重因子用于降低重复采样概率;所述退火因子用于通过调整经验权重降低采样误差;
权重确定模块,用于根据所述改进的三因子策略对经验赋予权重;
改进后的Q目标网络状态‑动作值函数确定模块,用于根据所述权重更新Q目标网络状态‑动作值函数,确定改进后的Q目标网络状态‑动作值函数;所述Q目标网络状态‑动作值函数是根据所述目标函数,通过在经验回放池中采集经验确定的;所述经验回放池用于存入五元组,所述五元组包括当前状态、当前动作、当前状态的奖励值、下一状态以及折扣因子;
三因子采样深度Q网络避障模型构建模块,用于根据所述改进后的Q目标网络状态‑动作值函数寻找最优动作执行策略,构建三因子采样深度Q网络避障模型;
避障路径规划模块,用于根据所述三因子采样深度Q网络避障模型规划避障路径。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1‑7中任一项所述的移动机器人动态避障方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1‑7中任一项所述的移动机器人动态避障方法。