1.基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,包括:采集城市路网的交通状态信息向量;
协调各个子区域交叉口的控制策略,并生成子区域交叉口的控制策略,包括:获取交通状态信息向量 ,动态生成每个子区域交叉口的控制策略,并将每个子区域交叉口的控制策略转换为对应子区域的交通信号灯的相位配时,具体包括:将子区域i交通状态信息 ,送入训练获得的执行网络 ;
执行网络 动态生成已知的最优控制策略 ;
将最优控制策略 转换为对应子区域i交通信号灯的相位配时 :获取当前交通信号灯的相位配时 和相位配时 的已执行时长 ,相位配时 的最新执行时长 ;若 ,则交通信号灯跳转执行下一相位配时 ;
从 中提取子区域的拥堵延误状态 ,计算奖励函数 ;
获取下一时刻交通信息状态 和 ,将 存为经验数据;
基于训练获得的本地评价网络 ,训练获得执行网络 ,包括:训练获得本地评价网络 ,包括:
采集 ,获取历史经验数据 , 为
子区域i的历史时刻 的交通状态信息, 为 对应的历史控制策略, 为控制策略的奖励值, 为时刻 +1子区域的交通状态信息, 为时刻 +1全路网交通状态信息, 为历史经验数据的容量;
随机选择 条历史经验数据构成训练数据集 ;
利用训练数据集对本地评价网络 进行训练,包括:从训练数据集中提取奖励向量 、交通状态信息向量 和;
训练获得的全局执行网络 计算获得全局优化策略 的控制策略分量 ;
采用软更新法更新目标评价网络 的权重 :,
式中,τ是设定的系数, 是更新前的权重, 是更新后的目标评价网络 的权重 , 为 的权重;
根据交通状态信息向量 、控制策略分量 、奖励向量 以及目标评价网络 的权重,求解使累积奖励最大的控制目标向量 :,
式中,是设定的折扣系数;
计算本地评价网络 的值 和控制目标向量 之间的loss值:,
式中, 是 和控制目标向量 之间的loss值; 是本地评价网络的权重向量,采用Adam优化器以loss值最小为目标迭代更新 ;
是由该训练数据集计算得到的loss期望值, , ;
判断 是否能收敛到 ,若 收敛到 则输出获得最终的本地评价网络 。
2.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,采集城市路网的交通状态信息向量,包括:将城市路网划分成N个包含交通信号灯的子区域,交通状态信息向量 为所有子区域的交通状态信息 的集合,i∈[1,N],为城市路网中子区域的总数;
子区域i交通状态信息 包括时刻 子区域 的拥堵延误向量 和时刻 子区域i交通信号灯的状态向量 , 为时刻 子区域i路段 的拥堵延误值,k∈[1,K],K为子区域内的路段数;
若时刻 子区域i路段 内无车,则 ,否则 = , 为时刻 路段的车辆总数, 为路段 车辆的实际旅行时间, 为路段 自由流车速的旅行时间;
时刻 子区域i交通信号灯的状态向量 , 为时刻 子区域i交通信号灯的相位配时, 为时刻 子区域i相位配时 的已执行时长。
3.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的本地评价网络 ,训练获得执行网络 ,包括:步骤1,从训练数据集 ,从中提取交通信息状态向量;
步骤2,调用执行网络 计算得到 的对应策略 , ;
步骤3,将 和 代入本地评价网络 ,计算策略 的得分 ;
步骤4,将得分 代入以下方程,并采用Adam优化器和确定性策略梯度法更新执行网络 的权重 ,以使 的得分达到最高:,
式中,是学习率, 是执行网络 的网络权重 的策略梯度, 是执行网络 策略向量 的策略梯度, 是状态为 时策略为 的条件概率, 是 在第 步的更新量;
步骤5,当 时停止更新,为相似度阈值,输出获得最终的执行网络 。
4.根据权利要求3所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,训练获得的全局执行网络 计算获得全局优化策略 的控制策略分量 ,包括:在全局执行网络 获取城市路网的交通状态信息向量 ;基于交通状态信息向量 ,全局执行网络 计算获得全局优化策略 , , 为城市路网中子区域的总数,将 分解为 , 为全局优化策略 的控制策略分量。
5.根据权利要求1所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的全局评价网络 训练获得全局执行网络 ,包括:训练获得全局评价网络 ,包括:
步骤1,获取城市路网当前时刻 所有N个子区域的控制策略,合成全局控制策略;获取当前时刻的全局交通状态信息向量 和下一时刻的全局交通状态信息向量 ;
步骤2:根据城市路网的总拥堵延误时间计算全局奖励值 , ,获得全局经验数据 ;
步骤3,通过不断采集 获取全路网经验数据 ,D为容量,为城市路网在 时刻的历史交通状态信息, 为 时刻所有子区域的控制策略, 为控制策略 的奖励值, 为城市路网在 下一时刻的历史交通状态信息;
步骤4,随机选择 组数据构成训练集 ,从训练集中提取奖励值构成奖励向量 ,从训练集中提取交通状态信息 构成交通状态信息向量 ,并根据生成全局控制策略 ,即 = ;
步骤5,采用软更新法更新全局目标评价网络 的权重 :;
式中,τ是设定的系数, 是更新前的全局目标评价网络 的权重, 是更新后的全局目标评价网络 的权重 , 是 的权重;
更新全局控制目标函数,使全局累积奖励最大;
全局控制目标函数为:
,
式中,为全局控制目标, 为全局目标评价网络, 是全局目标评价网络 的权重;
步骤6,通过迭代更新全局评价网络 的权重𝒘 以最小化 ; 的计算公式为:,
式中, 是基于训练集 得到的loss值, 为该训练集计算得到的loss期望值;调用Adam优化器以loss值最小为目标迭代更新全局评价网络 的权重向量𝒘 ;
若使 收敛到 ,则结束运行,获得最终的全局评价网络 。
6.根据权利要求5所述的基于多智能体深度强化学习的城市交通信号协同控制方法,其特征在于,基于训练获得的全局评价网络 训练获得全局执行网络 ,包括:步骤1,获取训练集 ,从中提取交通信息状态向量 ;
步骤2,调用全局执行网络 计算得到 对应策略 , ;
步骤3,将 和 代入全局评价网络 ,计算策略 的得分 ;
步骤4,将得分 代入以下方程,并使用Adam优化器对全局执行网络 的权重 进行更新,通过调节 使 的得分达到最高;全局执行网络 的权重 的更新公式为:,
式中,是学习率, 是全局执行网络 的权重 的策略梯度, 是控制策略向量 的策略梯度, 是状态为 时策略为 的条件概率, 是 在第 步的更新增量;
若 则结束运行,为相似度阈值,输出全局执行网络 ,否则执行步骤1。