买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度强化学习的高速公路道路协同控制系统及方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度强化学习的高速公路道路协同控制系统及方法

￥31200

专利号： 2020112021485

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的高速公路道路协同控制系统，其特征在于：包括交通信息交互模块、交通控制模块、深度学习神经网络训练模块以及交通控制单元；

所述交通信息交互模块，用于采集道路的观测信息ot，并转化为可用于深度强化学习的交通状态信息st发送给交通控制模块，以及接收交通控制模块和交通控制单元的指令并发送给管辖范围内的车辆；

所述交通控制模块，用于根据接收到的交通状态信息st选取最优行为策略at，并将at发送给交通控制单元，将st和at发送给训练模块，其中，at包括系统中所有交通控制单元的动作集合；

所述深度学习神经网络训练模块，用于将来自交通控制模块的交通状态信息st和行为策略at存入回放记忆库中，根据奖励函数对神经网络进行训练，使奖励函数的长期累积和最大化，以此优化决策控制网络；

所述交通控制单元包括布设于高速公路主线的可变限速控制单元以及布设于入口匝道处的匝道信号控制单元，各控制单元从来自交通控制模块的最优行为策略at中提取相应的动作指令，并将指令通过交通信息交互模块传递给受控路段的车辆；其中，匝道信号控制单元用于将入口匝道的放行流量指令转换成红绿信号周期，可变限速控制单元用于将限速指令转换成具体的可变限速值；

深度学习神经网络训练模块的训练过程包括如下步骤：(1)在t+1训练时刻，从交通信息交互模块获取前一时刻的交通状态信息st，从控制模块获取协同策略at，从奖励函数模块获取即时奖励rt，连同当前时刻的交通状态信息st+1，组成交通状态数据元组(st,at,rt,st+1)，存入回放记忆库中；

(2)深度学习训练模块从回放记忆库中随机调取N条用于训练的数据元组(st,at,rt,st+1)；

(3)对于每条数据元组，深度学习训练网络根据Bellman方程对其长期收益进行评分，取两个评分网络的较小分值，公式为：式中，yi是第i条数据的得分，ri是第i条数据的奖励，st+1是历史交通状态信息，μ′

是控制模块在st+1下的策略结果，θ 和分别是长期决策网络和长期评分网络的权重向量；

(4)基于损失函数对评分网络的权重进行更新，使用Adam优化器对更新过程进行优化；

其中，损失函数的计算方法为：

上式中，N为训练数据的条数，yi是第i条数据的得分，Q(st,at|θ)为评分网络基于最新Q

的数据(st,at)的评分，θ为评分网络的权重；

(5)每隔K个时间步长更新长期评分网络的权重，再根据评分网络的权重，调整决策控制网络的权重，改善控制策略。

2.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：交通信息交互模块包括若干路侧单元，高速公路主线及入口匝道的每条等距离子路段均配置有采集该子路段交通状态信息的路侧单元，采集的交通状态信息包括相应子路段的车辆密度、平均速度、排队长度。

3.根据权利要求2所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：获取交通状态信息包括如下步骤：(1)当一辆网联汽车驶入某一子路段i时，相应的路侧单元RSU与该车辆建立一个车辆会话VS，并将该会话加入当前路段的车辆会话队列VSQ中，VSQ中的车辆可与RSU实时信息交互；当车辆驶离该路段时，VS从VSQ中自动删除；

(2)每个控制时段，RSU从VSQ中获取最新的车辆状态，并据此生成路段的实时交通状态信息，并将交通状态信息发送给交通控制模块；

其中，获取算法为：

qt，i＝Nstop

式中，N是路段中的车辆数，vi是每个车辆的速度，L是路段长度，vt,i表示路段i的平均速度，dt,i表示路段i的车辆密度，qt,i表示路段i的排队长度，Nstop是路段中停止等待的车辆；

(3)交通控制模块计算出控制指令并回传RSU，RSU通过VSQ通知所辖范围内的车辆最新指令。

4.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：交通控制模块包括决策控制网络和随机噪声生成模块，并设有执行模式和训练模式；执行模式下，交通控制模块根据当前交通状态信息st直接选择最优的控制策略at；训练模式下，对at加上随机噪声由随机噪声生成模块提供；交通控制模块计算出at后，根据受控路段的编号将对应的控制指令at,i发给该路段的交通控制单元，同时将st和at发送给深度学习训练模块，评估at的控制效果。

5.根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统，其特征在于：匝道信号控制单元将交通控制模块的每分钟匝道放行流量转换成相应的红绿灯信号周期，转换方法包括如下步骤：

(1)从交通控制模块获取当前时刻的入口匝道放行流量指令；

(2)判断当前时刻是否是一个新的控制周期开始时刻，如果是，执行以下步骤重新分配红绿信号灯周期；如果不是，执行步骤(3)：(2.1)将当前时刻分配的匝道放行交通流量转为放行车辆数/分钟(VN/min)；

(2.2)计算信号周期的时长，计算公式为：绿灯时长＝每辆车放行时长×(VN/min)；

红灯时长＝信号周期‑绿灯时长；

(3)更新完成后，直到下一控制周期开始前，匝道信号单元根据红绿信号灯的状态，决定车辆是否放行；

在整个控制过程中，重复步骤(1)～步骤(3)。

6.一种根据权利要求1所述的基于深度强化学习的高速公路道路协同控制系统的控制方法，其特征在于包括：

(1)采集控制范围内高速公路主线和匝道的道路交通状态信息st；

(2)获取道路交通状态信息st，根据执行模式或训练模式计算当前的控制策略；

(3)对任意交通状态st，通过深度学习训练模块改进其控制行为，最终使系统的长期累计奖励值最大；

(4)计算出最优行为策略at后，根据该控制策略指导控制范围内高速公路主线和匝道的交通流优化。