利索能及
我要发布
收藏
专利号: 2025104664175
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度确定性梯度策略的月球车路径规划方法,其特征在于,包括以下步骤:(1)引入地形坡度角 ,基于阿克曼转向原理,确定航向角 和转向角 的微分方程,得到月球车运动学模型;

(2)基于贝克压力沉陷理论,计算车轮沉陷量Z;根据地形坡度角 与车轮沉陷量Z,计算车辆最大转向角 ;根据车辆最大允许转向角 与车轮沉陷量Z,计算最小车轮转弯半径 ;基于转向角、最小转弯半径、最大速度和坡度角,构建基于深度确定性梯度策略的月球车运动学模型的约束条件;

(3)根据月球车运动学状态向量 和月球地形特征向量 ,定义状态空间S;根据速度增量 和航向角增量 ,定义动作空间 ;基于距离奖励、动态瞬时进展奖励、动态瞬时方向奖励和平滑度奖励,定义路径规划的多维度奖励函数r;

(4)根据地形粗糙度、坡度梯度和地形复杂度构建自适应步长 ;将状态空间扩展为 ,向动作空间 引入自适应步长 ,得到基础动作空间 ,将输入评论家Critic网络,输出步长评估价值 ,用于更新行动者Actor网络参数;向 引入奥恩斯坦‑乌伦贝克OU噪声,得到最终动作 ,执行最终动作 ,若满足 且,则进入步骤(5);反之则重新进行最终动作计算;

(5)计算路径规划的多维度奖励函数;

(6)根据地形风险函数、多维度奖励函数和步长损失,计算优先级权重 ,筛选经验样本进入经验池;进行模型训练,根据路径可达率挑选最佳路径;

步骤(3)中,路径规划的多维度奖励函数 为;

其中, 、 、 和 为权重, 距离奖励, 为动态瞬时进展奖励, 为动态瞬时方向奖励, 为平滑度奖励;

距离奖励 为

动态瞬时进展奖励 为

动态瞬时方向奖励 为

平滑度奖励 为

权重 、 、 和 如下式所示:;

其中, 表示当前位置到目标的欧氏距离, 为初始距离, 为当前速度,为目标速度, 为当前位置距离目标点的剩余距离, 为任务总距离,为上一状态的位置到目标点的距离, 为基础方向奖励权重,、为调节系数, 表示当前航向与目标方向的夹角, 为最大容忍阈值夹角, 为目标方向航向角,为当前时刻航向角, 为基础平滑度奖励权重, 为相邻时间步的加速度变化率, 为最大允许变化率, 为当前时刻的航向角, 为允许最大航向角;

步骤(4)中,自适应步长 为;

其中, 为基准步长, 为地形粗糙度,由高程标准差 归一化得到; 为坡度梯度,通过计算相邻栅格坡度变化率得到; 为地形复杂度,是根据地形粗糙度和地形坡度融合的复合指标; 、 、 为动态权重系数; 为最大速度;

当 不小于0.7即遇到高密度地形时,则缩短步长至基准值的30% 50%;

~

当 小于0.3即遇到低密度地形时,则扩大步长至基准值的120% 150%。

~

2.根据权利要求1所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,月球车运动学模型为;

其中, 为月球车位置信息,为车体线速度,为车辆轴距。

3.根据权利要求2所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,车轮沉陷量Z为;

其中, 为土壤垂直压力, 为土壤黏聚模量,为车辆车轮宽度, 为土壤摩擦模量, 为沉陷指数;

车辆最大转向角 为

其中, 表示考虑沉陷量与坡度时的平地最大转向角, 为车辆半径;

最小车轮转弯半径 为

最大速度 为

其中,为摩擦系数, 为月球重力系数。

4.根据权利要求3所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,状态空间S为;

其中,其中月球车运动学状态向量 包括月球车位置信息 、车体线速度 和航向角 ,月球地形特征向量 包括高程标准差 、地形坡度角 和粗糙度R;

粗糙度R为

其中,N表示采样点总数, 表示栅格单元内第i个采样点的高程值,表示栅格单元内所有采样点的高程平均值,若 时表示月球车遇到崎岖地形,则限制月球车行驶速度;

动作空间 为

其中, 且 。

5.根据权利要求4所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,基础动作空间 为;

步长评估价值 为

其中, 为权重系数, 为地形特征嵌入向量, 为动力学状态向量, 为偏置项;

最终动作 为

其中,表示均值回归速率, ; 表示噪声均值, 为最大坡度阈值, 表示OU过程生成的噪声值, 为t时刻的噪声值 , 为噪声扰动项 , 为地形复杂度阈值。

6.根据权利要求5所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,优先级权重 为;

其中, 为时间差分误差, 为步长损失, 表示地形风险函数,为状态向量, 表示第i条经验的多维度奖励绝对值, 为步长决策误差项系数, 为地形风险权重系数, 为奖励系数。

7.根据权利要求6所述基于深度确定性梯度策略的月球车路径规划方法,其特征在于,时间差分误差 为;

其中,为折扣因子 , 为目标网络对下一状态和动作的目标Q值, 为评论家Critic网络对当前状态和动作的预测Q值;

步长损失 为

其中, 为步长建议值, 为实际执行步长值;

地形风险函数 为

其中,1表示高风险经验,0.2表示低风险经验。