1.一种基于深度强化学习的自适应交通灯控制方法,其特征在于,将交通数据集和车流数据集导入Dueling Actor‑Critic深度强化学习框架进行训练得到最优动作,动作a用于对信号灯时长进行调控;
所述Dueling Actor‑Critic深度强化学习框架包括Actor网络和Critic网络;根据车道上的车辆数量得到状态集S,将所述状态集S输入到Critic网络中的Q网络,得到优势值X,进而计算相对状态下的ε值,将所述ε值输入到Actor网络中获得最优动作,利用所述ε值指导当前时刻状态s下的动作a以获取最优动作;
优势函数为: ε值的
计算公式为:
其中A为动作集合,ω是共享网络参数,α和β分别是价值函数网络和优势函数网络的网′络参数;V为价值函数,Q为状态动作值函数;动作a用于对信号灯时长进行调控,a为下一时刻动作;
所述交通数据集包括城市中所有交通节点的位置坐标信息和车道长度;所述车流数据集包括城市一段时间内所有车辆进入路网时间、离开路网时间及行动轨迹。
2.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,每隔一段时间间隔,将所述Q网络的网络参数输入Critic网络中的目标Q网络,对目标Q网络的参数进行更新,并计算得到最大Q估计。
3.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,所述动作a用于对信号灯时长进行调控包括对红灯时长或绿灯时长进行加减。
4.根据权利要求1所述的基于深度强化学习的自适应交通灯控制方法,其特征在于,利用Cityflow平台将所述交通数据集和车流数据集在Dueling Actor‑Critic深度强化学习框架中训练的结果进行可视化展示。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被加载至处理器时实现根据权利要求1‑4任一项所述的基于深度强化学习的自适应交通灯控制方法。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1‑4任一项所述的基于深度强化学习的自适应交通灯控制方法。