利索能及
我要发布
收藏
专利号: 2022104082791
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于记忆网络的深度强化学习交通信号控制方法,其特征在于,包括步骤:

S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值 将st和 进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st ,a,θ),以及Q(st,a ,θ)最大值所对应的动作 即:所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差;

S2、对主网络的参数θ进行随机初始化,将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st;

S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作 以概率1‑ε选择 以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0‑1之间,且随训练逐渐减小,直至达到预设的固定值;

S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;

S5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络的参数θ;所述损失函数为:

其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;

S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。

2.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络中将st和 进行合并的具体操作为将st和 进行级联操作,得到作为合并后的结果输入全连接网络。

3.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络中将st和 进行合并的具体操作为将st和 相加,得到 作为合并后的结果输入全连接网络。

4.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,其中时长τ为10s。

5.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,当交通路口为十字路口,所述主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4。

6.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,奖励函数值为: 其中mj为t时刻前时长为τ的时间段内交通路口中第j个出车道驶离交通路口的车辆数量,nj为t时刻前时长为τ的时间段内交通路口中第j个进车道进入交通路口的车辆数量。

7.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变。

8.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。

9.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述经验池采用容量固定的队列存储记录。