1.一种基于多任务思想下的深度强化学习交通灯控制方法,其特征在于,包括以下步骤:步骤1、对城市内交通网络数据进行预处理;具体为:步骤1.1、采集一个城市内所有交通节点的信息,形成交通数据集;所述信息包括节点的位置坐标信息、所有车道长度;
步骤1.2、采集一个城市一段时间内的车流信息,形成车流数据集;所述信息包括所有车辆进入路网、离开路网的时间、车辆的行动轨迹;
步骤2、利用DQN算法构建深度强化学习框架;具体为:步骤2.1、根据车道上的车辆数量设计状态函数,动作函数对信号灯时长进行调控;
步骤2.2、将最大压力的概念代入至奖励函数,最大压力即进出车道的车辆数之差,则一条交通运动对应的最大压力公式为:Pi=Nin‑Nout
又因奖励函数与压力呈负相关,则一条交通运动的奖励函数设定为:ri=‑Pi
当前路口的总奖励则为所有交通运动的奖励之和,即:R=∑ri
式中,Nin是进车道的车辆数,Nout是出车道的车辆数;
步骤3、将交通数据集、车流数据集导入深度强化学习框架,进行训练,并记录实验结果;
步骤4、以平衡车道压力的思想为基准,修改奖励函数;具体为:以平衡车道压力的思想为基准,修改奖励函数,对平衡压力的公式取负,设定为第一个奖励函数,即:P′i=Nin‑(Nmax‑Nout)r′i=‑P′i
则当前路口的总奖励为:
R′=∑r′i
第二个奖励函数时采用了自训练开始以来所有即时奖励的平均值和方差:R″=raverage‑rvariance使用两个奖励函数并行训练网络之前,设计了一个简单的噪声机制,使得第一个奖励作为主任务,而第二个奖励则为副任务:R=R′+α*R″
式中,Nin是进车道的车辆数,Nout是出车道的车辆数,Nmax是车道上最大的车辆数,raverage是即时奖励的平均值,rvariance是即时奖励的方差,α是噪声因子,x是训练时间;
步骤5、将交通数据集、车流数据集导入新的深度强化学习框架,进行训练,并记录实验结果;
步骤6、比较步骤3和步骤5中的实验结果;
步骤7、将步骤5中训练生成的回放文件导入至Cityflow平台,进行可视化展示。
2.根据权利要求1所述的一种基于多任务思想下的深度强化学习交通灯控制方法,其特征在于,步骤3所述的实验结果包括车辆的平均通行时间、路口的通行量。
3.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1‑2中任一项所述的一种基于多任务思想下的深度强化学习交通灯控制方法。
4.一种计算机设备,包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1‑‑2中任一项所述的一种基于多任务思想下的深度强化学习交通灯控制方法。