买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多策略强化学习的交通信号灯控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多策略强化学习的交通信号灯控制方法

面议

专利号： 2023110504776

申请人：中南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多策略强化学习的交通信号灯控制方法，其特征在于包括如下步骤：S1. 获取当前时刻目标交通信号灯处的交通数据信息；

S2. 根据步骤S1获取的数据信息，采用分类宽度学习系统进行复杂度判定：若判定为简单系统，则根据获取的数据信息计算下一时刻的交通信号灯的控制策略，当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；

若判定为复杂系统，则继续进行后续步骤；

S3. 根据当前的状态信息，采用当前的评估宽度学习系统计算下一时刻的最佳动作值；当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；

S4. 获取当前时刻和历史时刻的状态信息、控制策略和奖励信息；

S5. 从步骤S4获取的数据信息中，抽取若干信息对评估宽度学习系统进行训练，并将训练后的评估宽度学习系统作为当前的评估宽度学习系统；

S6. 实时重复步骤S1 S5，完成目标交通信号灯处的基于多策略强化学习的交通信号~灯控制。

2.根据权利要求1所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S2，具体包括如下步骤：根据步骤S1获取的数据信息，采用分类宽度学习系统进行复杂度判定：若判定为简单系统，则根据获取的数据信息，采用韦氏算法计算下一时刻的交通信号灯的控制策略；当前时刻的交通信号灯控制过程结束，并跳转到步骤S4；

若判定为复杂系统，则继续进行后续步骤。

3.根据权利要求2所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S3，具体包括如下步骤：根据当前的状态信息，采用当前的评估宽度学习系统，基于当前时刻的状态，计算得到下一时刻的最佳动作值，该最佳动作值对应于交通信号灯的控制策略；

计算完成后，当前时刻的交通信号灯控制过程结束，并跳转到步骤S4。

4.根据权利要求3所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S3，具体包括如下内容：根据当前的状态信息，采用当前的评估宽度学习系统，基于当前时刻的状态信息，采用如下算式计算得到下一时刻的最佳动作值：式中为动作对应的最大值；为状态下对应的动作的Q值；

为当前状态；为评估宽度学习系统中的网络参数；最佳动作值对应于交通信号灯的控制策略。

5.根据权利要求4所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S4，具体包括如下步骤：在每个时刻下，获取上一个时刻的状态信息、动作信息、奖励信息和当前时刻的状态信息，并存储到缓冲区中；

当存储缓冲区存满后，用最新存储的状态信息替换最早存储的状态信息。

6.根据权利要求5所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的奖励信息，具体为采用如下步骤计算得到：采用如下算式计算得到奖励信息：式中和为权重值，且；为车辆平均等待时间变量，且，为t时刻道路上等待车辆的总数，为对应车辆的等待时间且，为交通灯在一个相位中的持续时间，为车辆当前速度，为规定的车辆最小速度；为车辆最长等待时间与最短等待时间变量，且，为最短或者最长等待那辆车的等待时间。

7.根据权利要求6所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的步骤S5，具体包括如下步骤：每一轮训练前，从储缓冲区中，采用均匀采样的方式，抽取一批大小为设定值P的数据，并放入训练池；每一轮训练时，从训练池中获取训练数据，进行训练；每一轮训练后，将当前轮次训练后的评估宽度学习系统作为当前的评估宽度学习系统；

首先，针对评估宽度学习系统进行训练：在当前轮次的训练数据中，将训练池中作为系统的输入X，将目标值作为系统的输出Y；为上一时刻环境中的状态信息数据，为上一时刻环境中的动作信息数据，作为训练时目标值信息数据；

采用如下算式将输入X映射到特征空间：式中为第i组特征节点；

为随机产生的具有设定维数的随机权值矩阵；为随机产生的偏置项；为第一非线性映射函数；

采用如下算式将特征节点映射得到增强节点：式中为第j组增强节点；为第n组映射特征；为随机产生的随机产生的随机权值矩阵；

为随机产生的偏置项；为第二非线性映射函数；n为特征节点的组数；

将特征节点和增强节点进行连接并导入到系统的输出层，得到系统的输出Y：式中为第m组增强界节点；m为增强节点的组数；

为系统中网络的连接权重；

若评估宽度学习系统的训练未达到设定的要求，则进行增量学习；所述的增量学习包括增加特征节点和增加增强节点；

经过设定次数的训练后，将评估宽度学习系统的权重值复制给目标宽度学习系统，完成目标宽度学习系统的更新。

8. 根据权利要求7所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的目标值，具体采用如下算式计算得到：式中为当前时刻的奖励信息；为为折扣因子；为动作对应的Q值；为目标宽度学习系统的参数。

9.根据权利要求8所述的基于多策略强化学习的交通信号灯控制方法，其特征在于所述的系统中网络的连接权重，具体为采用如下步骤计算得到：评估宽度学习系统的节点为表示；

采用如下算式计算得到系统中网络的连接权重：式中为的转置；为正则化参数；I为单位矩阵；Y为系统的输出。