买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于改进深度Q网络算法的移动机器人路径规划

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于改进深度Q网络算法的移动机器人路径规划

￥31200

专利号： 2022110027132

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述路径规划包括以下步骤：步骤1：确定移动机器人的位置和目标点位置，初始化相关参数；

步骤2：初始化预测网络参数w和目标网络参数w'，确定移动机器人当前状态S；

步骤3：移动机器人以ε的概率通过将改进的人工势场引力函数作为动作策略，选择动作a执行，以1‑ε的概率选择最大Q值的动作a执行,ε表示贪心采样策略；

步骤4：因在算法后期人工势场引力较大，会导致移动机器人易陷入局部最小点，通过目标引导动作函数解决移动机器人陷入局部最小点的问题：步骤5：移动机器人执行步骤3～步骤4选取出的动作a后，根据Q值函数和改进的奖励函数得出当前状态奖励值r、下一状态S'和下一状态奖励值r'，并将(S,a,r,r',S')作为一条经验样本存储到对应经验池中；

步骤6：以概率ρ从经验池D1采样样本，以1‑ρ概率从经验池D2采样样本，然后通过样本优先级公式计算出存储在样本经验池D1和D2中所有样本的优先级p，接着通过样本被采样的概率公式计算出每个样本被采样的概率，最后按概率对经验池中的样本进行采样；

步骤7：若被采样的样本下一状态为目标点状态，则目标Q值为目标点状态的奖励值，否则目标Q值为目标点状态奖励值加折扣的下一状态最大Q值；

步骤8：步骤6～步骤7连续执行，重复采样序列数量n次，得到最终的目标Q值；

步骤9：根据均方误差损失函数公式计算出损失值，并使用小批量半梯度下降法更新预测网络的网络参数w；

步骤10：每隔一定训练步数将预测网络的网络参数w赋值到目标网络的网络参数w'，根据移动机器人每一步选择的动作，规划出从起点到达终点的路径；

步骤11：若第t步移动机器人位置状态未到达目标点状态则重复步骤2～步骤10，否则判断训练情节数是否到达网络训练总情节数，若未到达网络训练总情节数则重复步骤1～步骤10，若达到网络训练总情节数则结束训练，并根据移动机器人选择的最大Q值动作，规划出从起点到达终点的路径，算法结束；

所述步骤5中改进的奖励函数具体如下：

改进的奖励函数公式如下：

其中，λ为奖励函数的折扣因子，其中0＜λ＜1，Xne＝[xne,yne]是当前位置离目标点最近的邻近点，xne，yne是当前位置离目标点最近的邻近点的横纵坐标，为当前位置邻近点的集合，为邻近点与目标点的距离集合，i为当前位置的临近点的方向；

由如下欧式距离公式所得：

2.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述步骤1中初始化的相关参数具体如下：确定移动机器人当前位置Xt＝[xt,yt]，移动机器人所探索的步数为t，第t步时移动机器人所在位置的横纵坐标xt，yt，目标点位置为Xtar＝[xtar,ytar]，目标点位置横纵坐标为xtar，ytar；初始化正负价值样本经验池D1和D2的容量、贪心采样策略ε、网络训练的总情节数N、样本优先级p、采样序列数量n。

3.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述步骤3中选取移动机器人下一步执行的动作a具体如下：改进的人工势场引力函数Fatt(X)的大小为：

其中，m是阈值，L是地图环境的对角线距离，引力的方向为移动机器人指向目标点方向，dis(Xtar‑Xt)是移动机器人在当前位置Xt＝[xt,yt]与目标点Xtar＝[xtar,ytar]的欧式距离，公式如下所示：由上述引力函数Fatt(X)公式可知，移动机器人当前位置Xt＝[xt,yt]与目标点Xtar＝[xtar,ytar]之间的距离越大，则引力值越小，而当移动机器人位置Xt＝[xt,yt]与目标点Xtar＝[xtar,ytar]距离小于阈值m时，引力值保持不变；

最大Q值动作的选取由Q值函数决定，Q值函数更新迭代如下所示：其中，Q(S,a)为当前状态的Q值，S为当前状态，a为执行动作，α为学习率，其中0≤α≤1，r'为环境给予下一状态奖赏值，γ为折扣系数，其中0≤γ≤1，S'为下一状态，a'为下一步执行的动作。

4.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述步骤6中采样样本过程具体如下：样本j的优先级pj公式为：

式中，υj为每个样本被的采样次数；由公式可得，样本的优先级pj会随着被采样的次数增加逐渐减小，因此根据样本的优先级，定义每个样本被采样的概率P(j)为：式中，size(D1or D2)为样本经验池容量；由公式可得，算法按样本被采样概率P(j)从D1和D2中抽取样本，减少了高价值样本被重复采样的概率，提高了低价值样本被采集到的概率，从而能有效地减缓了损失值发散、神经网络过拟合的问题。

5.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述步骤9中方误差损失函数公式和小批量半梯度下降法公式具体如下：所述均方误差损失函数公式如下所示：

其中，Ε(·)为均方差函数，w'为目标网络参数，w为预测网络参数，Q(S,a,w)为预测网络输出，Q(S',a',w')为目标网络输出，为下一状态的最大Q值，为目标Q值；

所述小批量半梯度下降法公式如下所示：

其中为对Q(S,a,w)求梯度。

6.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划，其特征在于，所述步骤10中目标网络的网络参数w'的赋值公式如下所示：w'←τw+(1‑τ)w'

其中τ≤1，通过w'的赋值公式能够有效地控制每次目标Q值更新的幅度，提升移动机器人在学习时的稳定性。