利索能及
我要发布
收藏
专利号: 2022110027132
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述路径规划包括以下步骤:步骤1:确定移动机器人的位置和目标点位置,初始化相关参数;

步骤2:初始化预测网络参数w和目标网络参数w',确定移动机器人当前状态S;

步骤3:移动机器人以ε的概率通过将改进的人工势场引力函数作为动作策略,选择动作a执行,以1‑ε的概率选择最大Q值的动作a执行,ε表示贪心采样策略;

步骤4:因在算法后期人工势场引力较大,会导致移动机器人易陷入局部最小点,通过目标引导动作函数解决移动机器人陷入局部最小点的问题:步骤5:移动机器人执行步骤3~步骤4选取出的动作a后,根据Q值函数和改进的奖励函数得出当前状态奖励值r、下一状态S'和下一状态奖励值r',并将(S,a,r,r',S')作为一条经验样本存储到对应经验池中;

步骤6:以概率ρ从经验池D1采样样本,以1‑ρ概率从经验池D2采样样本,然后通过样本优先级公式计算出存储在样本经验池D1和D2中所有样本的优先级p,接着通过样本被采样的概率公式计算出每个样本被采样的概率,最后按概率对经验池中的样本进行采样;

步骤7:若被采样的样本下一状态为目标点状态,则目标Q值为目标点状态的奖励值,否则目标Q值为目标点状态奖励值加折扣的下一状态最大Q值;

步骤8:步骤6~步骤7连续执行,重复采样序列数量n次,得到最终的目标Q值;

步骤9:根据均方误差损失函数公式计算出损失值,并使用小批量半梯度下降法更新预测网络的网络参数w;

步骤10:每隔一定训练步数将预测网络的网络参数w赋值到目标网络的网络参数w',根据移动机器人每一步选择的动作,规划出从起点到达终点的路径;

步骤11:若第t步移动机器人位置状态未到达目标点状态则重复步骤2~步骤10,否则判断训练情节数是否到达网络训练总情节数,若未到达网络训练总情节数则重复步骤1~步骤10,若达到网络训练总情节数则结束训练,并根据移动机器人选择的最大Q值动作,规划出从起点到达终点的路径,算法结束;

所述步骤5中改进的奖励函数具体如下:

改进的奖励函数公式如下:

其中,λ为奖励函数的折扣因子,其中0<λ<1,Xne=[xne,yne]是当前位置离目标点最近的邻近点,xne,yne是当前位置离目标点最近的邻近点的横纵坐标, 为当前位置邻近点的集合, 为邻近点与目标点的距离集合,i为当前位置的临近点的方向;

由如下欧式距离公式所得:

2.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述步骤1中初始化的相关参数具体如下:确定移动机器人当前位置Xt=[xt,yt],移动机器人所探索的步数为t,第t步时移动机器人所在位置的横纵坐标xt,yt,目标点位置为Xtar=[xtar,ytar],目标点位置横纵坐标为xtar,ytar;初始化正负价值样本经验池D1和D2的容量、贪心采样策略ε、网络训练的总情节数N、样本优先级p、采样序列数量n。

3.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述步骤3中选取移动机器人下一步执行的动作a具体如下:改进的人工势场引力函数Fatt(X)的大小为:

其中,m是阈值,L是地图环境的对角线距离,引力的方向为移动机器人指向目标点方向,dis(Xtar‑Xt)是移动机器人在当前位置Xt=[xt,yt]与目标点Xtar=[xtar,ytar]的欧式距离,公式如下所示:由上述引力函数Fatt(X)公式可知,移动机器人当前位置Xt=[xt,yt]与目标点Xtar=[xtar,ytar]之间的距离越大,则引力值越小,而当移动机器人位置Xt=[xt,yt]与目标点Xtar=[xtar,ytar]距离小于阈值m时,引力值保持不变;

最大Q值动作的选取由Q值函数决定,Q值函数更新迭代如下所示:其中,Q(S,a)为当前状态的Q值,S为当前状态,a为执行动作,α为学习率,其中0≤α≤1,r'为环境给予下一状态奖赏值,γ为折扣系数,其中0≤γ≤1,S'为下一状态,a'为下一步执行的动作。

4.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述步骤6中采样样本过程具体如下:样本j的优先级pj公式为:

式中,υj为每个样本被的采样次数;由公式可得,样本的优先级pj会随着被采样的次数增加逐渐减小,因此根据样本的优先级,定义每个样本被采样的概率P(j)为:式中,size(D1or D2)为样本经验池容量;由公式可得,算法按样本被采样概率P(j)从D1和D2中抽取样本,减少了高价值样本被重复采样的概率,提高了低价值样本被采集到的概率,从而能有效地减缓了损失值发散、神经网络过拟合的问题。

5.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述步骤9中方误差损失函数公式和小批量半梯度下降法公式具体如下:所述均方误差损失函数公式如下所示:

其中,Ε(·)为均方差函数,w'为目标网络参数,w为预测网络参数,Q(S,a,w)为预测网络输出,Q(S',a',w')为目标网络输出, 为下一状态的最大Q值,为目标Q值;

所述小批量半梯度下降法公式如下所示:

其中 为对Q(S,a,w)求梯度。

6.根据权利要求1所述的一种基于改进深度Q网络算法的移动机器人路径规划,其特征在于,所述步骤10中目标网络的网络参数w'的赋值公式如下所示:w'←τw+(1‑τ)w'

其中τ≤1,通过w'的赋值公式能够有效地控制每次目标Q值更新的幅度,提升移动机器人在学习时的稳定性。