1.一种基于多策略强化学习的交通信号灯控制方法,其特征在于包括如下步骤:S1. 获取当前时刻目标交通信号灯处的交通数据信息;
S2. 根据步骤S1获取的数据信息,采用分类宽度学习系统进行复杂度判定:若判定为简单系统,则根据获取的数据信息计算下一时刻的交通信号灯的控制策略,当前时刻的交通信号灯控制过程结束,并跳转到步骤S4;
若判定为复杂系统,则继续进行后续步骤;
S3. 根据当前的状态信息,采用当前的评估宽度学习系统计算下一时刻的最佳动作值;当前时刻的交通信号灯控制过程结束,并跳转到步骤S4;
S4. 获取当前时刻和历史时刻的状态信息、控制策略和奖励信息;
S5. 从步骤S4获取的数据信息中,抽取若干信息对评估宽度学习系统进行训练,并将训练后的评估宽度学习系统作为当前的评估宽度学习系统;
S6. 实时重复步骤S1 S5,完成目标交通信号灯处的基于多策略强化学习的交通信号~灯控制。
2.根据权利要求1所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的步骤S2,具体包括如下步骤:根据步骤S1获取的数据信息,采用分类宽度学习系统进行复杂度判定:若判定为简单系统,则根据获取的数据信息,采用韦氏算法计算下一时刻的交通信号灯的控制策略;当前时刻的交通信号灯控制过程结束,并跳转到步骤S4;
若判定为复杂系统,则继续进行后续步骤。
3.根据权利要求2所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的步骤S3,具体包括如下步骤:根据当前的状态信息,采用当前的评估宽度学习系统,基于当前时刻的状态,计算得到下一时刻的最佳动作值,该最佳动作值对应于交通信号灯的控制策略;
计算完成后,当前时刻的交通信号灯控制过程结束,并跳转到步骤S4。
4.根据权利要求3所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的步骤S3,具体包括如下内容:根据当前的状态信息,采用当前的评估宽度学习系统,基于当前时刻的状态信息 ,采用如下算式计算得到下一时刻的最佳动作值 : 式中 为动作 对应的最大值; 为状态 下对应的动作的Q值; 为当前状态; 为评估宽度学习系统中的网络参数;最佳动作值 对应于交通信号灯的控制策略。
5.根据权利要求4所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的步骤S4,具体包括如下步骤:在每个时刻 下,获取上一个时刻的状态信息 、动作信息 、奖励信息 和当前时刻的状态信息 ,并存储到缓冲区中;
当存储缓冲区存满后,用最新存储的状态信息替换最早存储的状态信息。
6.根据权利要求5所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的奖励信息,具体为采用如下步骤计算得到:采用如下算式计算得到奖励信息 : 式中 和为权重值,且 ; 为车辆平均等待时间变量,且 , 为t时刻道路上等待车辆的总数, 为对应车辆的等待时间且, 为交通灯在一个相位中的持续时间, 为车辆当前速度, 为规定的车辆最小速度; 为车辆最长等待时间与最短等待时间变量,且, 为最短或者最长等待那辆车的等待时间。
7.根据权利要求6所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的步骤S5,具体包括如下步骤:每一轮训练前,从存储缓冲区中,采用均匀采样的方式,抽取一批大小为设定值P的数据,并放入训练池;每一轮训练时,从训练池中获取训练数据,进行训练;每一轮训练后,将当前轮次训练后的评估宽度学习系统作为当前的评估宽度学习系统;
首先,针对评估宽度学习系统进行训练:在当前轮次的训练数据中,将训练池中 作为系统的输入X,将目标值作为系统的输出Y; 为上一时刻环境中的状态信息数据, 为上一时刻环境中的动作信息数据, 作为训练时目标值信息数据;
采用如下算式将输入X映射到特征空间: 式中 为第i组特征节点; 为随机产生的具有设定维数的随机权值矩阵; 为随机产生的偏置项; 为第一非线性映射函数;
采用如下算式将特征节点映射得到增强节点:式中 为第j组增强节点; 为第n组映射特征; 为随机产生的随机产生的随机权值矩阵; 为随机产生的偏置项; 为第二非线性映射函数;n为特征节点的组数;
将特征节点和增强节点进行连接并导入到系统的输出层,得到系统的输出Y:式中 为第m组增强界节点;m为增强节点的组数; 为系统中网络的连接权重;
若评估宽度学习系统的训练未达到设定的要求,则进行增量学习;所述的增量学习包括增加特征节点和增加增强节点;
经过设定次数的训练后,将评估宽度学习系统的权重值复制给目标宽度学习系统,完成目标宽度学习系统的更新。
8. 根据权利要求7所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的目标值,具体采用如下算式计算得到: 式中 为当前时刻的奖励信息; 为为折扣因子; 为 动作对应的Q值; 为目标宽度学习系统的参数。
9.根据权利要求8所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的系统中网络的连接权重,具体为采用如下步骤计算得到:评估宽度学习系统的节点 为表示 ;
采用如下算式计算得到系统中网络的连接权重 :式中 为 的转置; 为正则化参
数;I为单位矩阵;Y为系统的输出。
10.根据权利要求9所述的基于多策略强化学习的交通信号灯控制方法,其特征在于所述的增量学习,具体包括如下步骤:增加增强节点的方式实现增量学习:
新增加的增强节点 表示为 ;
则新的评估宽度学习系统的节点表示为 ;
根据分块矩阵的伪逆理论,计算得到 ,其中 为的伪逆矩阵 ,C为计算值且 , 为矩阵B的转置且;
则新的新的评估宽度学习系统的网络的连接权重 为;
增加特征节点的方式实现增量学习:
新增加的特征节点 表示为 ;
相应增加的增强节点随机生成如下:
为随机产生的具有适当维
数的随机权值矩阵; 为随机产生的偏置项,则新的评估宽度学习系统的节点表示为;
基于 的伪逆对 进行增量学习;
根据分块矩阵的伪逆理论,计算得到 ,其中 为的伪逆矩阵,C为计算值且 , 为矩阵B的转置且;
则新的评估宽度学习系统的网络的连接权重 为 。