1.一种基于采样优化DDPG算法的机器人路径导航方法,其特征是,包括以下步骤:智能机器人通过感知器获取外部环境信息,得到初始状态;
将初始状态输入基于深度确定性策略梯度算法模型中,引入注意力机制,输出智能机器人初始移动动作,智能机器人执行初始移动动作,得到智能机器人与环境交互的信息;
将智能机器人每次和环境交互的信息作为样本存入经验回放池中,在经验回放池中添加样本重要性机制,按照样本的优先级采样,进行动作价值的计算;
根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策,实现智能机器人的路径规划。
2.根据权利要求1所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,智能机器人执行初始移动动作,得到智能机器人与环境交互的信息,具体包括如下步骤:采用卷积神经网络,设置三个卷积层,对初始状态进行特征提取,得到初始状态特征;
将初始状态特征输入DDPG的当前Actor神经网络,当前Actor神经网络输出智能机器人初始状态下的初始移动动作;
智能机器人在初始状态特征下执行初始移动动作,得到本次智能机器人与环境交互的信息以及智能机器人执行动作后达到的下一个状态。
3.根据权利要求2所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,将初始状态特征输入当前Actor神经网络的全连接层,全连接层可以将初始状态特征映射到样本标记空间,利用全连接层的映射功能,实现从状态到动作的映射,为智能机器人在特定状态获得相应的动作。
4.根据权利要求3所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,在状态到动作的映射过程为动作添加随机噪声。
5.根据权利要求1所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,所述将样本数据存入经验回放池中,在经验回放池中添加样本重要性机制,具体为:在经验回放池中设置带有优先级的二叉树来存放样本数据,结点用来存放样本数据,结点的值代表优先级的大小,叶子结点值越大的数据,数据的优先级越高,其区间长度越大,数据被采样的概率越大。
6.根据权利要求1所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,所述对样本数据进行采样采用基于二叉树结构对叶子结点做类均匀采样。
7.根据权利要求6所述的基于采样优化DDPG算法的机器人路径导航方法,其特征是,所述结点的值即为TD误差的大小,为目标网络计算的Q值与当前网络计算的Q值的欧氏距离。
8.一种基于采样优化DDPG算法的机器人路径导航系统,其特征是,包括:环境状态获取模块,被配置为:智能机器人通过感知器获取外部环境信息,得到初始状态;
路径导航模块模块,被配置为:将初始状态输入基于深度确定性策略梯度算法模型中,引入注意力机制,输出智能机器人初始移动动作,智能机器人执行初始移动动作,得到智能机器人与环境交互的信息;
将智能机器人每次和环境交互的信息作为样本存入经验回放池中,在经验回放池中添加样本重要性机制,按照样本的优先级采样,进行动作价值的计算;
路径导航更新模块,被配置为:根据动作价值使用梯度的反向传播对深度确定性策略梯度算法模型进行参数更新做出最优决策,实现智能机器人的路径规划。
9.一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,执行权利要求1至7中任一项所述的一种基于采样优化DDPG算法的机器人路径导航方法。
10.一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,执行权利要求1至7中任一项所述的一种基于采样优化DDPG算法的机器人路径导航方法。