利索能及
我要发布
收藏
专利号: 2019101348804
申请人: 苏州科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种停车场的车位停车情况预测方法,其特征在于,包括:获取停车场的各个车位的实际的停车情况数据,

利用所述实际的停车情况数据,通过Q‑learning算法获得预测策略,利用预测策略预测停车情况数据,所述利用所述实际的停车情况数据,通过Q‑learning算法获得预测策略,利用预测策略预测停车情况数据包括:将停车情况问题建模为一个马尔可夫决策过程,并定义其中的状态、动作、状态转移函数以及立即奖赏函数,具体包括:状态,用s表示,设G={1,…m}为所有停车场的集合,m为停车场的数量,设V={1,2,

3,…,k}是停车场的车位的集合,其中k是停车场的车位的总数,第i个停车场的第j个车位的停车情况数据为vi,j,其中i∈G,j∈V,则状态表示为:s=(v1,1,v1,2,…,v2,1,…,vm,k);

动作,用a表示,动作可以表示为预测下一时刻各个停车场的各个车位的停车情况数据,设第i个公共停车场的第j个车位的停车情况数据为ri,j,其中i∈G,j∈V,ri,j∈{0,1},其中,0表示车位空闲,1表示车位被占用,则动作表示为:a=(r1,1,r1,2,r1,3,…,rm,k);

状态转移函数,用f表示,设当前停车场调度状态s的动作为:a’=(q1,1,q1,2,q1,3,…,qm,k),q∈{‑1,0,1},其中,‑1表示车位车辆离开,0表示车位无变动,1表示空车位有车停入,则状态转移函数表示为:f:st+1←st+(q1,1,q1,2,q1,3,…,qm,k);

立即奖赏函数,用r表示,设下一个时刻的预测的停车场的车辆停放状况集合为Et+1,该时刻实际的车辆停放状况集合为et+1,两者之间的差值为:立即奖赏函数表示为:r=‑E;

建立值函数回报模型,具体包括:

建立值函数回报模型,设R(s,a)表示在状态s下采用动作a的回报值;值函数Q(s,a)是关于R(s,a)的期望,则Q(s,a)=E[R(s,a)];

所述利用Q‑learning算法获得预测策略包括:每收集一次停车场的各个车位的实际的停车情况数据记为一次情节,每次状态转移即预测一次下一时刻的停车情况数据记为一个时间步t,重复以下步骤直至状态s收敛:采取动作at,获得r和下一个状态st+1,通过ε‑greedy策略从Q根据st+1选择下一个动作at+1,具体应用的公式如下:Q(st,at)←Q(st,at)+α[Rt+1+γmax Q(st+1,at+1)‑Q(st,at)],st←st+1,

at←at+1,

其中,γ为折扣因子,α为学习速率;

利用预测策略预测停车情况数据;

采用TD Learning算法对所述值函数进行更新,具体包括:使用TD Learning的思想来进行值函数的更新,TD Learning时间差分方法的目标为Rt+1+γV(st+1),若V(st+1)采用真实值,则TD Learning时间差分方法估计也是无偏估计,然而在试验中,V(St+1)用的也是估计值,因此TD Learning时间差分方法属于有偏估计,更新方法应用以下公式:V(st)←V(st)+α(Rt+1+γV(st+1)‑V(st)),其中,α为TD Learning步长,γ为TD Learning报酬贴现率,在所述利用预测策略预测停车情况数据之前,先使用DQN深度强化学习算法,对通过Q‑learning算法得到的预测策略进行优化,具体包括:将从Q‑Table中的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作,通过更新参数θ使Q函数逼近最优Q值,如下式:Q(s,a;θ)≈Q′(s,a),

Q‑Learning的更新公式为:

Q(st,at)←Q(st,at)+α[Rt+1+γmax Q(st+1,a)‑Q(st,at)],而DQN的Loss Function为:

2

L(θ)=E[(TargetQ‑Q(st,a;θ)) ],其中θ是网络参数,目标为:

TargetQ=r+γmaxQa’(st+1,at+1;θ),接下来,通过数学求导的方法得到L(θ)关于θ的梯度,使用SGD梯度下降方法更新网络参数θ。

2.一种停车场的调度方法,其特征在于,包括权利要求1所述的停车场的车位停车情况预测方法,还包括:获取路况信息数据,结合预测得到的停车情况数据,计算获得推荐车位,将推荐车位发送给终端设备。

3.根据权利要求2所述的停车场的调度方法,其特征在于,所述推荐车位距离目的地的距离小于等于阈值D,所述终端设备所在位置到推荐车位所用时间小于等于阈值T。

4.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求2或3所述的停车场的调度方法对应的操作。

5.一种计算机装置,包括:处理器、存储器、通信接口和通信总线,所述处理器、存储器和通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求2或3所述的停车场的调度方法对应的操作。