买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于强化学习的智能车辆高速公路匝道汇入决策方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于强化学习的智能车辆高速公路匝道汇入决策方法

面议

专利号： 2023105645558

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于强化学习的智能车辆高速公路匝道汇入决策方法，其特征在于：所述方法将高速公路匝道与主路的交叉点设置为合流点，将匝道以及位于合流点后S1米处和合流点前S2米处的主干道设置为控制区域，S1和S2为设定值；

在所述控制区域内，将智能车辆投影到主路的目标车道上，投影智能车辆到合流点距离和匝道上智能车辆到合流点距离相等；

确定投影智能车辆的前面车辆和后面车辆，并获取它们的速度和位置作为环境车辆信息；

获取智能车辆与合流点的距离、智能车辆速度和加速度作为智能车辆信息；

根据智能车辆信息、环境车辆信息，智能车辆采用强化学习DDPG模型进行加速度和前轮转角调整，逐步实现成功汇入；

强化学习DDPG模型的智能体获得的奖励至少包括第一奖励，其计算步骤包括：将汇入过程分成若干阶段，为每个阶段设置影响因子；

根据投影智能车辆到合流点距离，判断其所属阶段，利用该阶段的影响因子计算第一奖励，计算公式如下：式中：为第i阶段的影响因子，i=1,2,…，n，n为设置的阶段总数，是汇入位置奖励的权重，为智能车辆速度与前后两辆车平均速度的最大允许速度差，为智能车辆前面第一辆车辆的速度，为智能车辆后面第一辆车辆的速度，为智能车辆速度，为智能车辆中心点到合流点的距离，w的取值范围为[0,1]，其中0表示智能车辆与前面第一辆车辆之间的距离间隙和智能车辆与后面第一辆车辆之间的距离间隙相同，1表示智能车辆与前面第一辆车辆或后面第一辆车辆的距离间隙为零，w的定义如下式：式中：为智能车辆前面一辆车辆到合流点的距离，为智能车辆后面一辆车辆到合流点的距离，、分别是智能车辆前第一辆车辆和智能车辆的车辆长。

2.根据权利要求1所述的方法，其特征在于：

强化学习DDPG模型的智能体获得的奖励为第一奖励与第二奖励之和，第二奖励为下述任一项的值、或任两项之和、或任多项之和：碰撞惩罚与未碰撞奖励、安全行驶速度奖励、未达指定目的地停止惩罚、达到目的地奖励、乘客舒适度奖励；其中：碰撞惩罚与未碰撞奖励计算如下：

式中：表示车辆碰撞惩罚，为车辆发生碰撞设定的惩罚值；

安全行驶速度奖励计算如下：

式中：表示在智能车辆当前车辆速度下车辆高速奖励，为智能车辆最高车辆速度，为车辆高速行驶的奖励值；

未达指定目的地停止惩罚：

式中：表示车辆成功到达奖励，为车辆成功到达的奖励值；

达到目的地奖励计算如下：

式中：表示车辆成功到达奖励，为车辆成功到达目的地设定的奖励值；

乘客舒适度计算如下：

式中：为舒适度惩罚奖励的权重，为乘客舒适度允许的最大冲击度，为智能车辆的加速度导数，为乘客受到的冲击度。

3.根据权利要求1所述的方法，其特征在于：

强化学习DDPG模型的智能体通过Actor网络选择动作，通过Critic 网络评价所选动作的Q值，Actor网络和Critic 网络均由时序神经网络层和全连接层构成；其中：Actor网络和Critic 网络均将智能车辆信息和环境车辆信息的历史状态信息作为输入，Actor 网络输出的动作Action与Critic 网络中时序神经网络层的输出拼接后，传递给Critic 网络中全连接层，由这个全连接层计算生成对动作Action的评价 Q 值。

4.根据权利要求3所述的方法，其特征在于：

Actor网络和Critic 网络均具有网络参数和目标网络参数，两者初始化时相同；

在更新时，从经验回放池D中随机采样N个历史状态‑动作对数据，N为设定值，先通过最Q小化损失函数更新Critic网络的网络参数θ ，再通过最大化从Critic网络估计Q值，更新μActor网络的网络参数θ ；

获取Actor网络和Critic 网络的目标网络参数，用更新Actor网络μ’

的目标网络参数θ ，为逼近系数，用更新Critic网络的目标网络参数Q’θ ；

当强化学习DDPG模型训练结束后，Actor网络使用目标网络参数对智能车辆汇入进行决策。

5.根据权利要求4所述的方法，其特征在于：

经验回放池平均分为正样本经验回放池和负样本经验回放池两个经验回放池；

智能体在经验池中采样样本时，根据设定的样本数，分别从两个经验回放池中平均采样数据，然后将采样到的数据结合在一起用于训练；

正样本为智能车辆汇入成功的样本，负样本为智能车辆汇入失败的样本。

6.根据权利要求3所述的方法，其特征在于：

时序神经网络为LSTM、GRU、Bi‑LSTM、RNN中的任一种。