买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于多任务思想下的深度强化学习交通灯控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于多任务思想下的深度强化学习交通灯控制方法

￥31200

专利号： 2023102781103

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多任务思想下的深度强化学习交通灯控制方法，其特征在于，包括以下步骤：步骤1、对城市内交通网络数据进行预处理；具体为：步骤1.1、采集一个城市内所有交通节点的信息，形成交通数据集；所述信息包括节点的位置坐标信息、所有车道长度；

步骤1.2、采集一个城市一段时间内的车流信息，形成车流数据集；所述信息包括所有车辆进入路网、离开路网的时间、车辆的行动轨迹；

步骤2、利用DQN算法构建深度强化学习框架；具体为：步骤2.1、根据车道上的车辆数量设计状态函数，动作函数对信号灯时长进行调控；

步骤2.2、将最大压力的概念代入至奖励函数，最大压力即进出车道的车辆数之差，则一条交通运动对应的最大压力公式为：Pi＝Nin‑Nout

又因奖励函数与压力呈负相关，则一条交通运动的奖励函数设定为：ri＝‑Pi

当前路口的总奖励则为所有交通运动的奖励之和，即：R＝∑ri

式中，Nin是进车道的车辆数，Nout是出车道的车辆数；

步骤3、将交通数据集、车流数据集导入深度强化学习框架，进行训练，并记录实验结果；

步骤4、以平衡车道压力的思想为基准，修改奖励函数；具体为：以平衡车道压力的思想为基准，修改奖励函数，对平衡压力的公式取负，设定为第一个奖励函数，即：P′i＝Nin‑(Nmax‑Nout)r′i＝‑P′i

则当前路口的总奖励为：

R′＝∑r′i

第二个奖励函数时采用了自训练开始以来所有即时奖励的平均值和方差：R″＝raverage‑rvariance使用两个奖励函数并行训练网络之前，设计了一个简单的噪声机制，使得第一个奖励作为主任务，而第二个奖励则为副任务：R＝R′+α*R″

式中，Nin是进车道的车辆数，Nout是出车道的车辆数，Nmax是车道上最大的车辆数，raverage是即时奖励的平均值，rvariance是即时奖励的方差，α是噪声因子，x是训练时间；

步骤5、将交通数据集、车流数据集导入新的深度强化学习框架，进行训练，并记录实验结果；

步骤6、比较步骤3和步骤5中的实验结果；

步骤7、将步骤5中训练生成的回放文件导入至Cityflow平台，进行可视化展示。

2.根据权利要求1所述的一种基于多任务思想下的深度强化学习交通灯控制方法，其特征在于，步骤3所述的实验结果包括车辆的平均通行时间、路口的通行量。

3.一种计算机存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1‑2中任一项所述的一种基于多任务思想下的深度强化学习交通灯控制方法。

4.一种计算机设备，包括储存器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1‑‑2中任一项所述的一种基于多任务思想下的深度强化学习交通灯控制方法。

推荐专利

一种基于深度强化学习的任务卸载方法

发明专利

￥25200

面向机械臂抓取任务的知识图谱深度强化学习迁移系统

发明专利

￥11500

分层边缘计算环境中基于深度强化学习的任务调度方法

发明专利

￥36000

基于深度强化学习的多无人机空中充电和任务调度方法

发明专利

￥31200

我要求购

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

利索能及

友情链接

关于我们

联系我们