利索能及
我要发布
收藏
专利号: 2018110290418
申请人: 平安科技(深圳)有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种交通信号灯的控制方法,其特征在于,包括:获取交通环境训练数据,所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态,所述联合路口行为包括每一预设路段的交通信号灯的通行时间变化量;其中,所述联合交通状态为在一个联合路口行为的条件下得到的各预设路段的交通状态组合形成的整体道路的交通状态,各所述预设路段的交通状态为在设置好不同联合路口行为的条件下采集各所述预设路段的车流数据,并通过所述车流数据得到每个所述预设路段的交通状态;所述预设路段的交通信号灯为所述预设路段的路口中的交通信号灯,所述预设路段为两个交通信号灯路口之间的一段道路,且将驶离所述预设路段对应的路口归为所述预设路段的路口;

基于Q‑Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵,其中,所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益;

若当前时间为第一预设时间,每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态;

基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间,其中,所述通行切换时间为所述预设路段各通行方向的放行时间;

所述基于Q‑Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵,包括:设置Q‑Learning算法的奖惩规则、折扣因子γ;

基于所述奖惩规则,利用Q‑Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵,所述Reward矩阵包括不同的联合交通状态在不同的联合路口行为下对应的Reward值,所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率;

根据公式 计算联合交通状态S在联合路口行为下的Q值,以得到联合交通状态与联合路口行为对应的Q矩阵,其中,T(S,A,S’)为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率,max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大Reward值,R(S,A)表示联合交通状态S下选择联合路口行为A可得到的当前收益,all包括全部联合交通状态。

2.根据权利要求1所述的交通信号灯的控制方法,其特征在于,所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间,包括:从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值;

获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间;

控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

3.根据权利要求1所述的交通信号灯的控制方法,其特征在于,所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间之前,还包括:

判断所述当前的联合交通状态是否满足预设状态;

若所述当前的联合交通状态满足预设状态,执行所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间的步骤。

4.根据权利要求1所述的交通信号灯的控制方法,其特征在于,所述基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间之后,还包括:

若当前时间达到第二预设时间,恢复所述若干预设路段的交通信号灯初始的通行切换时间。

5.一种交通信号灯的控制装置,其特征在于,包括:第一获取单元,用于获取交通环境训练数据,所述交通环境训练数据包括若干预设路段的联合路口行为以及在不同联合路口行为下所述若干预设路段的联合交通状态,所述联合路口行为包括每一预设路段的交通信号灯的通行时间变化量;其中,所述联合交通状态为在一个联合路口行为的条件下得到的各预设路段的交通状态组合形成的整体道路的交通状态,各所述预设路段的交通状态为在设置好不同联合路口行为的条件下采集各所述预设路段的车流数据,并通过所述车流数据得到每个所述预设路段的交通状态;所述预设路段的交通信号灯为所述预设路段的路口中的交通信号灯,所述预设路段为两个交通信号灯路口之间的一段道路,且将驶离所述预设路段对应的路口归为所述预设路段的路口;

机器学习单元,用于基于Q‑Learning算法对所述交通环境训练数据进行深度学习以得到联合交通状态与联合路口行为对应的Q矩阵,其中,所述Q矩阵中的任一Q值表示在对应的联合交通状态下选择对应的联合路口行为所得的若干预设路段的联合交通状态改善的总收益;

第二获取单元,用于若当前时间为第一预设时间,每预设周期获取所述若干预设路段的交通状态以得到当前的联合交通状态;

控制单元,用于基于所述当前的联合交通状态以及所述Q矩阵控制所述若干预设路段的交通信号灯的通行切换时间,其中,所述通行切换时间为所述预设路段各通行方向的放行时间;

其中,所述机器学习单元包括:

设置子单元,用于设置Q‑Learning算法的奖惩规则、折扣因子γ;

学习子单元,用于基于所述奖惩规则,利用Q‑Learning算法学习所述交通环境训练数据以得到联合交通状态与联合路口行为对应的Reward矩阵以及各联合交通状态之间的转换概率T矩阵,所述Reward矩阵包括不同的联合交通状态在不同的联合路口行为下对应的Reward值,所述转换概率T矩阵包括任一联合交通状态在任一联合路口行为下转化为另一联合交通状态的概率;

计算子单元,用于根据公式 计算联合交通状态S在联合路口行为下的Q值,以得到联合交通状态与联合路口行为对应的Q矩阵,其中,T(S,A,S’)为联合交通状态S在联合路口行为A下转化为联合交通状态S’的概率,max[R(S’)]表示联合交通状态S’在不同的联合路口行为下所能得到的最大Reward值,R(S,A)表示联合交通状态S下选择联合路口行为A 可得到的当前收益,all包括全部联合交通状态。

6.根据权利要求5所述的交通信号灯的控制装置,其特征在于,所述控制单元包括:第一获取子单元,用于从所述Q矩阵中获取所述当前的联合交通状态下的最大Q值;

第二获取子单元,用于获取所述最大Q值对应的联合路口行为以得到每一预设路段的交通信号灯的通行切换时间;

控制子单元,用于控制所述若干预设路段的交通信号灯按对应的通行切换时间进行交通指示。

7.根据权利要求5所述的交通信号灯的控制装置,其特征在于,还包括:恢复单元,用于若当前时间达到第二预设时间,恢复所述若干预设路段的交通信号灯初始的通行切换时间。

8.一种计算机设备,其特征在于,包括存储器,以及与所述存储器相连的处理器;

所述存储器用于存储实现交通信号灯的控制方法的计算机程序;

所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1至4任一项所述的方法。

9.一种存储介质,其特征在于,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,以实现如权利要求

1至4任一项所述的方法。