买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的多乘客动态车辆路径优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的多乘客动态车辆路径优化方法

￥23800

专利号： 2021104783814

申请人：武汉工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-11-19

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：包括以下步骤：

S1：构建车辆运行的状态动作空间；

S2：以车辆作为强化学习的主体，根据不同情况设定不同的奖励值和惩罚值；

S3：搭建具有经验回放机制的DQN算法，建立DQN深度神经网络，并训练车辆让实际Q值趋近目标Q值；

S4：进行监督学习，通过确定损失函数、梯度获得最优的动态车辆路径。

2.根据权利要求1所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S1中，具体步骤为：设车辆的通行范围在道路的起点和终点之间；

在车辆的通行范围内设有车站、特殊区域、信号灯；

车站为行人的上下车地点，车站带有停车属性；

行人为参与交通的实体，分布在车站的附近，行人分别带有不同的通行计划属性；特殊区域分布在道路的两旁，车辆在经过特殊区域时进行减速操作；

信号灯用于控制交通。

3.根据权利要求2所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S2中，具体步骤为：设参与学习的车辆的状态为S，车辆在状态S下的动作为A，对车辆的动作的奖励或惩罚的值为R，车辆的状态发生改变的状态转移概率为P；定义四元组和奖惩规则如下：

S＝特殊区域且红灯，A＝减速，R＝‑3；

S＝普通区域，A＝正常速度，R＝‑1；

S＝终点，A＝停止，R＝10；

S＝乘客上车或下车，A＝停止，R＝1。

4.根据权利要求3所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S3中，具体步骤为：S31：设采用策略π在状态s下通过动作a得到的价值和状态动作价值函数为π(s,a)，在状态s下通过动作a转移到状态s′的转移概率为通过动作a从状态s转移到状态s′获得的奖励为设折扣值为γ，折扣值越大表示越考虑未来的价值累计，折扣值为零表示只π

看当前步骤的奖励积累；建立状态s下的状态价值函数V(s)为：π π

设在状态s′下采取动作a′的奖励为Q (s′，a′)，则状态s下累计的状态动作价值函数Q(s)为：

用于评定车辆交互时状态的价值和动作的价值；

S32：在高维连续的状态动作空间中，通过相近的状态拟合相近的输出动作，得到每个状态动作对的Q值：

Q(s，a；ω)≈Q′(s，a)；

S33：将Q‑Learning计算得到的目标Q值作为标签，并训练车辆让实际Q值趋近目标Q值。

5.根据权利要求4所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S4中，具体步骤为：S41：采用Q‑Learning确定损失函数为：S42：设DQN算法收敛，使车辆在每个状态下选取到最好的动作的策略为π：π(s)＝arg maxa∈AQ(s，a)；

S43：使用包括随机梯度下降的方法更新参数，从而优化函数直至获得稳定的全局奖励，得到车辆的最优动作序列和最优路线。

6.根据权利要求5所述的一种基于深度强化学习的多乘客动态车辆路径优化方法，其特征在于：所述的步骤S3中，采用numpy、tensorflow、openAI‑GYM环境，用python语言搭建DQN算法的具体步骤为：

环境E；动作空间A；起始状态X0；奖励折扣γ；学习率α；

输入：状态空间S；

1)初始化经验回放存储空间D；