买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多智能体深度强化学习的城市交通信号协同控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多智能体深度强化学习的城市交通信号协同控制方法

￥26000

专利号： 2022101512105

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，包括：采集城市路网的交通状态信息向量；

协调各个子区域交叉口的控制策略，并生成子区域交叉口的控制策略，包括：获取交通状态信息向量，动态生成每个子区域交叉口的控制策略，并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时，具体包括：将子区域i交通状态信息，送入训练获得的执行网络；

执行网络动态生成已知的最优控制策略；

将最优控制策略转换为对应子区域i交通信号灯的相位配时：获取当前交通信号灯的相位配时和相位配时的已执行时长，相位配时的最新执行时长；若，则交通信号灯跳转执行下一相位配时；

从中提取子区域的拥堵延误状态，计算奖励函数；

获取下一时刻交通信息状态和，将存为经验数据；

基于训练获得的本地评价网络，训练获得执行网络，包括：训练获得本地评价网络，包括：

采集，获取历史经验数据，为

子区域i的历史时刻的交通状态信息，为对应的历史控制策略，为控制策略的奖励值，为时刻 +1子区域的交通状态信息，为时刻 +1全路网交通状态信息，为历史经验数据的容量；

随机选择条历史经验数据构成训练数据集；

利用训练数据集对本地评价网络进行训练，包括：从训练数据集中提取奖励向量、交通状态信息向量和；

训练获得的全局执行网络计算获得全局优化策略的控制策略分量；

采用软更新法更新目标评价网络的权重：，

式中，τ是设定的系数，是更新前的权重，是更新后的目标评价网络的权重，为的权重；

根据交通状态信息向量、控制策略分量、奖励向量以及目标评价网络的权重，求解使累积奖励最大的控制目标向量：，

式中，是设定的折扣系数；

计算本地评价网络的值和控制目标向量之间的loss值：，

式中，是和控制目标向量之间的loss值；是本地评价网络的权重向量，采用Adam优化器以loss值最小为目标迭代更新；

是由该训练数据集计算得到的loss期望值，，；

判断是否能收敛到，若收敛到则输出获得最终的本地评价网络。

2.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，采集城市路网的交通状态信息向量，包括：将城市路网划分成N个包含交通信号灯的子区域，交通状态信息向量为所有子区域的交通状态信息的集合，i∈[1,N]，为城市路网中子区域的总数；

子区域i交通状态信息包括时刻子区域的拥堵延误向量和时刻子区域i交通信号灯的状态向量，为时刻子区域i路段的拥堵延误值，k∈[1,K]，K为子区域内的路段数；

若时刻子区域i路段内无车，则，否则 = ，为时刻路段的车辆总数，为路段车辆的实际旅行时间，为路段自由流车速的旅行时间；

时刻子区域i交通信号灯的状态向量，为时刻子区域i交通信号灯的相位配时，为时刻子区域i相位配时的已执行时长。

3.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的本地评价网络，训练获得执行网络，包括：步骤1，从训练数据集，从中提取交通信息状态向量；

步骤2，调用执行网络计算得到的对应策略，；

步骤3，将和代入本地评价网络，计算策略的得分；

步骤4，将得分代入以下方程，并采用Adam优化器和确定性策略梯度法更新执行网络的权重，以使的得分达到最高：，

式中，是学习率，是执行网络的网络权重的策略梯度，是执行网络策略向量的策略梯度，是状态为时策略为的条件概率，是在第步的更新量；

步骤5，当时停止更新，为相似度阈值，输出获得最终的执行网络。

4.根据权利要求3所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，训练获得的全局执行网络计算获得全局优化策略的控制策略分量，包括：在全局执行网络获取城市路网的交通状态信息向量；基于交通状态信息向量，全局执行网络计算获得全局优化策略，，为城市路网中子区域的总数，将分解为，为全局优化策略的控制策略分量。

5.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法，其特征在于，基于训练获得的全局评价网络训练获得全局执行网络，包括：训练获得全局评价网络，包括：

步骤1，获取城市路网当前时刻所有N个子区域的控制策略，合成全局控制策略；获取当前时刻的全局交通状态信息向量和下一时刻的全局交通状态信息向量；

步骤2：根据城市路网的总拥堵延误时间计算全局奖励值，，获得全局经验数据；

步骤3，通过不断采集获取全路网经验数据，D为容量，为城市路网在时刻的历史交通状态信息，为时刻所有子区域的控制策略，为控制策略的奖励值，为城市路网在下一时刻的历史交通状态信息；

步骤4，随机选择组数据构成训练集，从训练集中提取奖励值构成奖励向量，从训练集中提取交通状态信息构成交通状态信息向量，并根据生成全局控制策略，即 = ；

步骤5，采用软更新法更新全局目标评价网络的权重：；

式中，τ是设定的系数，是更新前的全局目标评价网络的权重，是更新后的全局目标评价网络的权重，是的权重；

更新全局控制目标函数，使全局累积奖励最大；

全局控制目标函数为：

，

式中，为全局控制目标，为全局目标评价网络，是全局目标评价网络的权重；

步骤6，通过迭代更新全局评价网络的权重𝒘 以最小化；的计算公式为：，