利索能及
我要发布
收藏
专利号: 202510049295X
申请人: 江苏科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-03-02
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于改进DDQN算法的移动机器人动态路径规划方法,其特征在于,包括如下步骤:S1:搭建动态模拟环境;

S2:构建路径规划模型,包括神经网络模块、经验回放模块、智能体控制模块;

S3:初始化动态模拟环境以及路径规划模型;

S4:基于改进DDQN与BOAE机制的融合策略对路径规划模型进行训练;

S5:加载训练好的移动机器人路径规划模型,智能体依据策略网络输出的最优动作决策驱动机器人在动态环境中运行,环境模拟模块实时反馈机器人位置及状态,可视化模块动态记录机器人路径,测试结束后,可视化模块展示机器人最优路径;

步骤S2中神经网络模块包括构建的策略网络和目标网络,依托PyTorch框架搭建多层全连接层结构;多层全连接层结构中,首层fc1将输入维度映射至256维,中间层fc2保持256维处理,末层fc3输出维度与动作空间维度匹配;各层间激活函数选用ReLU,策略网络依据融合BOAE信息的观测向量生成对应各离散动作的Q值,为机器人动作决策提供精准依据;目标网络用于辅助策略网络训练,初始复制策略网络参数,后续按特定更新规则调整参数;

步骤S2中策略网络依据融合BOAE信息的观测向量生成对应各离散动作的Q值,Q值的计算过程包括:

1)输入处理

首先,将融合BOAE信息的观测向量x作为输入;假设观测向量x={x1,x2,...,xn},其中n是观测向量的维度;

2)首层全连接层计算

将观测向量x输入到首层全连接层fc1,fc1中的每个神经元j会对输入进行加权求和,并加上偏置项b1j,即: 其中w1ij是fc1中第i个输入到第j个神经元的连接权重;

然后应用ReLU激活函数:a1j=ReLU(z1j)=max(0,z1j),得到fc1的输出:a1=[a11,a12,...,a1m],其中m=256,为fc1输出维度;

3)中间层全连接层计算

对于fc2中的每个神经元k, w2jk是fc2中第j个输入到第k个神经元的连接权重,b2k是偏置项;

再次应用ReLU激活函数:a2k=ReLU(z2k)=max(0,z2k),得到fc2的输出:a2=[a21,a22,...,a2m]

4)末层全连接层计算

末层fc3的计算,对于输出的每个动作对应的维度l, w3kl是fc3中第k个输入到第l个输出的连接权重,b3l是偏置项;

此时,z3l就是对应每个离散动作的Q值,即Ql=z3l,最终得到的Q值向量Q=[Q1,Q2,...,Qs],s为动作空间的维度,代表了机器人在当前观测下采取每个离散动作的价值;

步骤S2中智能体控制模块协同各模块运作,合理配置关键训练参数,包括折扣因子、学习率、探索率及其衰减率、最小探索率、目标网络更新频率、经验回放的记忆容量,并且引入n步长参数、软更新参数τ和正则化系数λ,实现特定改进策略;

步骤S4中结合n步奖励计算机制、软更新与正则化结合策略和BOAE机制融合策略对路径规划模型进行训练,其中,n步奖励计算机制:

软更新与正则化结合策略:软更新策略则通过引入软更新参数τ,使目标网络参数能够逐步、平稳地向策略网络参数靠近,避免了参数更新过程中的剧烈波动;同时,在损失函数计算中加入正则化项,通过正则化系数λ对损失函数进行调整;

BOAE机制融合策略:BOAE机制从状态和动作分析避障反应,利用交叉注意力和对决网络以及生成辅助奖励因子等多维度对机器人避障能力进行强化。

2.根据权利要求1所述的一种基于改进DDQN算法的移动机器人动态路径规划方法,其特征在于,所述步骤S1中动态模拟环境的搭建包括:精确设定移动机器人起始坐标与目标坐标;

针对动态障碍物,详细定义其属性列表,涵盖几何信息及动态运动规律;

对于各类传感器,GPS传感器采样周期设定为1ms,触摸传感器与距离传感器依据此同步采集数据;距离传感器通过严格筛选与排序获取,筛选规则为名称包含‘so’且包含数字字符,并依数字部分升序排列;采集到的传感器数据经归一化处理后融入观测向量,依据各传感器自身量程的最大、最小值,将数据范围规范至[0,1],以满足神经网络输入要求;

将动作空间定义为spaces.Discrete(3),对应前进、左转、右转三种离散动作;观测空间形状设为([X]),全面整合到目标距离、传感器数据、当前位置以及BOAE机制提供的避障相关信息,其中[X]为考虑BOAE信息后的观测空间维度,依据BOAE具体输出确定。

3.根据权利要求1所述的一种基于改进DDQN算法的移动机器人动态路径规划方法,其特征在于,所述步骤S2中经验回放模块运用基于SumTree数据结构的优先经验回放机制,存储机器人与动态环境交互产生的丰富经验数据;每个经验数据单元涵盖当前状态、执行动作、获得奖励、下一状态、任务是否结束信息。

4.根据权利要求1所述的一种基于改进DDQN算法的移动机器人动态路径规划方法,其特征在于,所述步骤S4中路径规划模型的训练包括如下过程:智能体依据当前观测向量、探索率以及BOAE机制提供的避障建议动作或动作调整信息,审慎选择动作;机器人在动态环境中执行所选动作后,环境模拟模块实时反馈奖励、下一状态及是否结束信息;智能体将交互经验存入经验回放模块,经验回放模块按优先级采样经验,为训练提供数据批次;训练过程中,计算n‑步奖励、时间差分误差,并利用软更新策略和正则化项更新策略网络和目标网络参数,同时根据BOAE机制对避障效果的评估调整经验优先级。

5.根据权利要求4所述的一种基于改进DDQN算法的移动机器人动态路径规划方法,其特征在于,所述步骤S4的路径规划模型训练中:计算n步奖励:按照n步奖励计算机制计算机器人在连续n个步骤内的累积奖励Rt;

计算时间差分误差:计算时间差分误差 其中Qθ(st,

at)是策略网络在状态st下执行动作at的Q值,Qθ'(st+n,a')是目标网络在状态st+n下的Q值;

更新网络参数:根据时间差分误差δ,利用梯度下降等方法更新策略网络参数θ,同时按照软更新策略θ'←(1‑τ)θ'+τθ更新目标网络参数θ'。