利索能及
我要发布
收藏
专利号: 2021104783814
申请人: 武汉工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-11-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:包括以下步骤:

S1:构建车辆运行的状态动作空间;

S2:以车辆作为强化学习的主体,根据不同情况设定不同的奖励值和惩罚值;

S3:搭建具有经验回放机制的DQN算法,建立DQN深度神经网络,并训练车辆让实际Q值趋近目标Q值;

S4:进行监督学习,通过确定损失函数、梯度获得最优的动态车辆路径。

2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S1中,具体步骤为:设车辆的通行范围在道路的起点和终点之间;

在车辆的通行范围内设有车站、特殊区域、信号灯;

车站为行人的上下车地点,车站带有停车属性;

行人为参与交通的实体,分布在车站的附近,行人分别带有不同的通行计划属性;特殊区域分布在道路的两旁,车辆在经过特殊区域时进行减速操作;

信号灯用于控制交通。

3.根据权利要求2所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S2中,具体步骤为:设参与学习的车辆的状态为S,车辆在状态S下的动作为A,对车辆的动作的奖励或惩罚的值为R,车辆的状态发生改变的状态转移概率为P;定义四元组和奖惩规则如下:

S=特殊区域且红灯,A=减速,R=‑3;

S=普通区域,A=正常速度,R=‑1;

S=终点,A=停止,R=10;

S=乘客上车或下车,A=停止,R=1。

4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S3中,具体步骤为:S31:设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a),在状态s下通过动作a转移到状态s′的转移概率为 通过动作a从状态s转移到状态s′获得的奖励为 设折扣值为γ,折扣值越大表示越考虑未来的价值累计,折扣值为零表示只π

看当前步骤的奖励积累;建立状态s下的状态价值函数V(s)为:π π

设在状态s′下采取动作a′的奖励为Q (s′,a′),则状态s下累计的状态动作价值函数Q(s)为:

用于评定车辆交互时状态的价值和动作的价值;

S32:在高维连续的状态动作空间中,通过相近的状态拟合相近的输出动作,得到每个状态动作对的Q值:

Q(s,a;ω)≈Q′(s,a);

S33:将Q‑Learning计算得到的目标Q值作为标签,并训练车辆让实际Q值趋近目标Q值。

5.根据权利要求4所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S4中,具体步骤为:S41:采用Q‑Learning确定损失函数为:S42:设DQN算法收敛,使车辆在每个状态下选取到最好的动作的策略为π:π(s)=arg maxa∈AQ(s,a);

S43:使用包括随机梯度下降的方法更新参数,从而优化函数直至获得稳定的全局奖励,得到车辆的最优动作序列和最优路线。

6.根据权利要求5所述的一种基于深度强化学习的多乘客动态车辆路径优化方法,其特征在于:所述的步骤S3中,采用numpy、tensorflow、openAI‑GYM环境,用python语言搭建DQN算法的具体步骤为:

环境E;动作空间A;起始状态X0;奖励折扣γ;学习率α;

输入:状态空间S;

1)初始化经验回放存储空间D;

2)使用随机权重θ初始化动作‑价值函数Q;

3)令随机权重θ‑=θ,初始化目标动作‑价值函数

4)对每一个episode循环

5)初始化状态序列S1={X1},Φ1=Φ(S1);

6)对每一步循环

7)选择一个动作A:

8)以概率ε选择一个随机动作At;

9)否则选择动作at=argmaxaQ(Φ(st),a;θ);

10)执行动作Ai并观察奖励Rt和新状态Xt+1;

11)令St+1=St,At,Xt+1并进行预处理使Φt+1=Φ(St+1);

12)在经验回放中D保存经验(Φt,At,Rt,Φt+1);

13)从D中随机选取小批样本(Φj,Aj,Rj,Φj+1);

14)

15)对于θ使用损失函数(yi‑Q(Φj,Aj,θ))梯度下降更新;

16)每C步对 进行重置;

17)判断终止条件,结束循环;

18)判断终止条件,结束循环;

输出:当前状态下所有可能采取动作的Q值。

7.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求6中任意一项所述的一种基于深度强化学习的多乘客动态车辆路径优化方法。