1.一种基于DDPG的移动机器人无先验地图导航决策方法,其特征在于:该方法包括以下步骤:S1:初始化Actor网络、Critic网络的参数、设置经验缓冲池大小以及随机取样的大小;
S2:构建导航决策模型的训练的仿真环境;
S3:提取机器人搭载的激光雷达(-90°,+90°)范围的9个均匀间隔的扇形区域的测距信息;
S4:导航决策模型驱动机器人向目标点靠近,开始对导航决策模型进行训练;
S5,重复S4步骤,直到机器人所获得的奖励值和导航成功率保持较高值且保持稳定;
S6:导航决策模型训练结束后,设置新的仿真环境对机器人的导航性能和稳定系进行测试验证;
所述S2具体为:
S21:利用gazebo、V‑REP仿真平台创建需要训练的机器人模型和封闭或者开放的机器人导航环境,并在所创建的环境中设置一定数量的障碍物;
S22:初始化机器人导航初始点,导航目标点在训练过程中随机生成;
所述S4具体为:
S41:模型驱动机器人运动,在运动探索过程中,机器人根据奖励函数获得对应的奖励值;
S42:将激光雷达的测距信息、目标点的信息进行归一化处理;
S43:将归一化的激光雷达测距信息和目标点的信息、机器人的动作以及奖励值存放在经验缓冲池中,Actor网络和Critic网络分别从经验缓冲池中随机均匀取样进行训练,Actor网络输出机器人的动作,Critic网络通过状态‑动作值函数对机器人当前的动作进行评估,以获得最大奖励值为目标,不断优化机器人动作和导航策略;
S44:当机器人满足以下条件之一就结束一幕的训练过程:
(1)到达目标点;
(2)机器人与障碍物发生碰撞;
(3)训练过程探索步数达到最大探索步数;
结束一幕的训练过程后,将机器人初始点初始化和并在模型训练的仿真环境中随机生成下一个导航目标点;
所述奖励函数为:
到达奖励ra、碰撞奖励rc、时间奖励rt和势场奖励rp,前三者皆设为固定值;
到达奖励ra为达到目标点获得的奖励,其为正奖励,碰撞奖励rc为机器人在探索过程中与障碍物或者墙壁发生碰撞所获得的奖励值,时间奖励rt为探索步数达到一定值后得到的奖励,碰撞奖励和时间奖励均为负奖励,势场奖励为机器人从初始位置向目标点靠近并且避开障碍物过程的奖励函数;
奖励函数公式如公式(1)所示:
势场奖励函数设计:势场奖励rp分为排斥势场奖励和吸引势场奖励;吸引势场由目标点和机器人位置决定,机器人距离目标点位置越远,所受的吸引势场越大;吸引势场见公式(2)所示,其中,k为引力势场正比例增益系数,ρg表机器人当前位置与目标点的欧氏距离;
Uatt=kρg=k||Pr‑Pg||2 (2)
在计算排斥势场时,需要考虑到障碍物对机器人产生的排斥影响,机器人距离障碍物越近,受到的排斥势场越大;计算排斥势场需要获得激光雷达探测到的障碍物的距离信息,考虑到障碍物只在一定范围对机器人产生影响,为减轻计算量,超过该影响范围后障碍物对机器人的影响忽略不计;机器人在距离障碍物一定范围内,排斥势场对机器人产生作用;
传统的排斥势场只考虑了障碍物对机器人的影响,当机器人的目标点附近存在障碍物时,机器人所受到的排斥影响将占主导地位,使得机器人靠近目标点会获得较大的负奖励值,导致算法难以收敛;在排斥势场的设计中,引入目标距离因子,保证目标点附近引力势场占主导地位,当靠近目标点时获得正的奖励值,引导机器人向目标点靠近,同时避开周围障碍物;排斥势场如公式(3)所示,其中,m为斥力势场距离增益系数,di为激光的测距距离,d0为常数,表示障碍物产生的排斥势场对机器人产生影响的距离界限,N为当前时刻在障碍物影响范围内激光雷达感知到的障碍物的激光线束的数量,n为(0,1)的系数;
当计算出吸引势场和排斥势场后,通过构造塑性奖励函数计算t时刻的势场奖励函数,其过程见公式(4)和公式(5);
Ut=Uatt+Urep (4)
rp=Ut‑1‑Ut (5)。
2.根据权利要求1所述的一种基于DDPG的移动机器人无先验地图导航决策方法,其特征在于:所述Actor网络和Critic网络采用全连接神经网络,每个神经网络有3个隐藏层,每一层具有512个节点,每个隐藏单元中采用ReLU激活函数;Actor网络输出机器人的线速度和角速度,为了线速度限制在(0,1)m/s范围内,线速度输出层采用Sigmoid激活函数;为获得(‑1,1)rad/s范围的角速度,角速度的输出层激活函数采用Tanh函数;Critic网络输出对状态和动作预测的Q值,输出层通过线性激活函数激活。