利索能及
我要发布
收藏
专利号: 2023111508685
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种非结构化环境的特种车辆自动驾驶路径规划方法,其特征在于,包括如下步骤:步骤一、数据预处理:基于真实非结构化地形3D点云数据,通过Simultaneous Localization and Mapping地面分割算法,将三维高度信息存储于相应栅格,获得非结构环境占用栅格图,再将所述栅格图地形数据划分为训练集和测试集;

步骤二、风险图构建:结合感知模块输入信息以及特种车辆动力学建模,从栅格图地形数据中提取可通行区域,并在此基础上实现风险图的构建;

所述风险图构建通过评估可通行区域和障碍物,为规划模块提供可靠的先验知识,风险图由地形风险、静态障碍风险和动态障碍风险构成,风险图中每个栅格均有对应的风险成本,其计算公式为:;

式中, 分别表示地形、静态障碍、动态障碍在风险图中所占风险的权重, 分别表示栅格

的地形风险指数、静态风险指数、动态风险指数, 分别为栅格在横向、纵向上的坐标;

(1)地形风险指数的计算:

地形风险指数主要基于坡度进行确定,对于栅格图中某一结点的坡度,采用Horn算法进行计算,Horn算法能够对DTM数据进行坡度分析和分类,同时还能够对大面积地形进行绘制和可视化处理,适用于不同分辨率和不同类型的地形数据;栅格 的坡度具体定义为: ;

式中, 表示高度 在 方向上的增量, 表示高度 在 方向上的增量;

当车辆在斜坡上行驶时,其受力情况通常表示为:;

式中, 表示车辆的质量, 表示车辆在t时刻上的加速度, 表示车辆在t时刻上所受的牵引力, 表示坡道阻力, 表示滚动阻力, 表示空气阻力;

假设车辆以恒定速度行驶,同时忽略空气阻力和内部能量损失,与其他值相比,它们通常非常小;因此,边坡上的阻力可以表示为滚动阻力和坡道阻力之和,其分别表示为:;

式中, 为常数, 表示当前时刻所处的坡度, 表示滚动阻力系数,通常由路型、行驶速度、轮胎结构、材料因素决定;因此,非结构化环境下行驶的车辆爬坡的形式方程表示为:;

当AV以最大牵引力 行驶时,由公式(5)求解最大爬坡坡度 的近似值,具体为通过图像逼近方法,通过 与 的数值比对划分出不可通行区域,即坡度超过了车辆最大爬坡度的栅格;

对于不可通行区域的边界,通过边界线表征车辆行驶的潜在风险,起到限制行驶区域的作用,车辆与边界的距离越近,危险程度就越高,因道路边界产生的风险被定义为:;

式中, 表示边界 的危险程度, 表示当前位置  到边界 的直线距离;

得到地形风险指数函数如下:

式中, 分别为边界与坡度风险权重参数;

(2)静态障碍风险指数的计算:

本系统的障碍物表示均使用平面直角坐标系,静态障碍风险指数计算公式如下:;

式中, 表示当前静态障碍物的影响程度, 表示当前障碍物场沿空间变化的程度, 分别表示栅格的横、纵位置坐标, 分别表示障碍物的横、纵位置坐标,为障碍物的等效质量, 表示静态障碍物风险场的梯度方向,即:;

(3)动态障碍风险指数的计算:

对于特种车辆行驶中的动态风险,将动态障碍物分为低速障碍物和高速障碍物,动态障碍物的低速与高速分类主要依靠障碍物类型,低速障碍物通常速度较慢,且在路径规划中占据的时间较长,有较高的安全性要求,处理低速障碍物时需要考虑安全性和缓慢的运动速度,以充分避免可能的碰撞风险,因此,本系统结合车辆与障碍的相对速度来定义风险,低速障碍物的风险指数计算公式为:;

式中, 分别表示距离与相对速度的权重, 表示车辆行驶速度, 表示障碍物的速度, 为特种车辆与障碍物之间的相对速度与坐标连线的夹角;

高速障碍物速度相对较快,且在路径规划过程中只占据小部分时间,需要侧重于场景预测、识别和避让,处理高速障碍物时需要更快地做出决策,以充分避免可能的碰撞风险,在保证安全的前提下尽可能减小行驶路径以节省时间,本系统采用长短期记忆 LSTM神经网络对高速障碍历史轨迹的连续特征进行学习,得到未来的预测轨迹,然后根据预测轨迹生成相应的风险;高速动态障碍物风险生成公式与公式(5)类似,即将预测轨迹视为静态障碍物:;

式中, 表示当前高速动态障碍物的影响程度, 表示当前轨迹场沿空间变化的程度, 分别表示栅格的横、纵位置坐标, 分别是预测轨迹的横纵位置坐标,为动态障碍物的等效质量, 表示静态障碍物风险场的梯度方向,即:;

动态障碍物风险指数函数为:

式中, 分别为低速障碍与高速障碍的风险权重参数;

步骤三、模型构建:根据风险图构造自适应性的奖励函数,搭建强化学习模型以及Agent的神经网络;

步骤四、模型训练:基于构建非结构化环境测试机进行训练,在每一个训练周期初始化阶段构建随机函数,随机化起点和终点位置,使系统具有泛化性;

步骤五、规划路径:通过强化学习训练获得策略网络,在测试集中执行路径规划。

2.根据权利要求1 所述的非结构化环境的特种车辆自动驾驶路径规划方法,其特征在于,所述步骤一中,Simultaneous Localization and Mapping地面分割算法的工作过程为:在环境中选择一个基准坐标系来描述摄像机的位置,并用它描述环境中任何物体的位置,该基准坐标系称为世界坐标系;采用视觉 SLAM算法框架,以相机作为传感器获取非结构化环境的信息,再经过视觉里程计算法来估计相邻两帧图像间相机的运动,进而估计相机位姿;经回环检测判断当前位置机器人曾经是否达到过;最后经后端优化对相机位姿与地图点坐标进行优化处理,构建出具有高精度、全局一致的地图。

3.根据权利要求1所述的非结构化环境的特种车辆自动驾驶路径规划方法,其特征在于,所述步骤三中,所述的自适应性的奖励函数为为了提高系统对地形的适应性,所设计的函数,具体公式如下:;

式中, 分别为风险函数权重、抵达终点奖励权重、车辆行驶消耗权重,的大小设置与起点终点之间距离 成正比; 表示特种车辆抵达终点奖励,即在车辆抵达目标位置时,给予的一次性正向奖励,其数值大小可以表示为:;

式中, 分别表示起点横、纵坐标, 分别表示终点横、纵坐标, 为抵达终点时刻奖励权重参数;

表示车辆在行使中的消耗,用于约束车辆以找到理想路径,其计算公式为:;

式中, 表示某一采样时间上车辆的行驶损耗。

4.根据权利要求1所述的非结构化环境的特种车辆自动驾驶路径规划方法,其特征在于,所述步骤三中,所述的强化学习模型以及Agent的神经网络为通过强化学习的方法智能决策特种车辆的下一目标位置,以当前状态周围可行节点为强化学习智能体的输出动作,采用兼具离散动作空间和连续动作空间的近端策略优化算法,基于训练集训练非结构化环境下特种车辆自动驾驶路径规划模型,近端策略优化算法采用两个策略网络的方法来更新策略,使用Actor‑Critic结构表示策略和值函数,其中,Actor表示策略网络,负责输出动作概率分布;Critic表示值函数网络,负责输出状态值的估计;本系统中Actor和 Critic网络均包含2层全连接层,隐藏神经元个数均为 64,激活函数选择tanh 函数,强化学习Agent的输入为观测值,包括当前位置 、起点 、终点 、当前地图信息、当前路径集合,智能体基于 时刻输入,输出特种车辆下一个目标位置 并且的范围设定是基于环境以及当前位置变化的,以车辆抵达终点,即作为进入下一个训练周期的中止条件,具体步骤如下:(1)初始化设置PPO网络:

式中, 分别表示Actor、Critic的网络参数, 表示对应网络的累计梯度;结合初始化Agent网络构建基于训练集环境信息的交互环境,搭建强化学习框架,通过信息交互获得策略动作、环境变化信息,并计算奖励函数,训练过程如下:,

环境初始化,得到初始状态下 ,

执行动作 ,

将采样 添加至经验回放池,

求解优势估计 ,

endfor;

for k = 0,1,2, …, K do,采样经验回放池,

通过 更新策略参数 ,通过最小化 更新价值参数 ;

end for,

end for;

其中,n表示训练周次次数,m、k分别表示周期内动作步数、更新步数;

分别表示t时刻执行动作、观测状态、即时奖励、状态价值, 表示t时刻是否中止的标志; 表示优势估计值:;

其中, 表示奖励衰减系数, 为训练步长;

的定义如下:

式中, 为系数, 表示额外熵; 表示在时刻t参数 变化前后的比值,为裁剪函数,裁剪上、下限分别为 为超参数; 为平方损失,表示目标状态价值函数;

(2)基于以上训练过程,重复训练至策略网络结构收敛至稳定状态,将策略网络用于测试集环境,收集结果路径结合三种指标综合评价训练效果;其中,路径长度评价函数如下,为结果路径总长度,长度越小代表路径越高效:;

路径颠簸程度评价函数如下, 采用变异系数计算方式,即标准差与均值的比, 越小,代表路径在纵向上越稳定:;

式中, 分别代表结果路径栅格高度的标准差、均数;

路径转角评价函数如下, 数值越大代表路径转角越少,即横向面上更加稳定:;

式中, 为结果路径上,弧度制转角与 比值的均值, 表示结果路径转角,即:;

式中, 表示结果路径中转角数量;

(3)通过计算测试集结果路径的以上指标,评价基于训练集得到的策略网络。

5.根据权利要求1 所述的非结构化环境的特种车辆自动驾驶路径规划方法,其特征在于,所述步骤四中,随机函数为起点位置初始化要求在可行域内随机化位置,并且应该保证位置的随机化是均匀的,即在可行域内的所有位置出现的概率相等,具体执行时将可通行区域分成若干个小区域,在每个小区域内随机采样一个点作为位置,结合栅格图特性,使用离散均匀分布,所有可通行栅格点依次记为 分别对应即所有可通行点的坐标,离散均匀分布的分布函数为:

式中,P为可通行栅格点数量。