利索能及
我要发布
收藏
专利号: 2021104582603
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种智能巡航控制方法,其特征在于,包括:确定自动控制车辆的当前状态信号;

将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;

其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的;

所述马尔可夫决策过程模型的构建过程包括以下步骤:获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列系统的动态方程;

根据所述队列系统的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;

根据所述队列系统的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型;

所述根据所述队列系统的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:其中,N是采样间隔数,yi和ui分别表示当前时刻的状态变量和加速度控制策略,C与D为系数矩阵:c1和c2为预设系数,m为车辆队列中除头车外的车辆总数;

所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;

μ

在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(sk|θ),执行策略 并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk+1,rk)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,η表示随机噪声;

Q

当前critic网络通过最小化如下均方误差损失函数来更新其参数θ:Q

其中,M为小批量采样的样本数,Q(st,at|θ )是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:μ′ Q′

xt=rt+γQ′(st+1,μ′(st+1|θ )|θ )μ′ Q′

式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θ )|θ )为目标critic网络生成的下一μ′Q值,μ′(st+1|θ )为目标actor网络根据输入状态st+1生成的下一动作策略,γ表示折扣因子;

μ

当前actor网络通过如下策略梯度函数来更新其参数θ:μ

其中, 为梯度算子, 表示对θ 求梯度, 表示对a求梯度,J表示当前actor网络函数;

Q' μ'

目标actor网络和目标critic网络通过如下方式来分别更新其参数θ 和θ :Q′ Q Q′

θ ←δθ+(1‑δ)θ

μ′ μ μ′

θ ←δθ+(1‑δ)θ

其中,δ为固定常数,0<δ<<1。

2.根据权利要求1所述的智能巡航控制方法,其特征在于,所述获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列系统的动态方程,包括以下步骤:通过车对车通信获取车辆队列中各车的车距、车速及加速度信息;

根据所述车辆队列中各车的车距、车速及加速度信息,建立队列中各车的动态方程;

通过头车获取期望车速,基于预先设定的范围策略获得各车的期望车距,并根据所述头车的期望车速、各车的期望车距及各车的当前车速和车距,建立各车的状态误差方程;

联合所述各车的状态误差方程,并基于连续时间的队列中各车的状态方程,离散化处理后获得队列系统的动态方程。

3.根据权利要求2所述的智能巡航控制方法,其特征在于,所述预先设定的范围策略包括:若当前车距小于预设的最小车距,则期望车速为0;

若当前车距不小于预设的最小车距且不大于预设的最大车距,则根据预设的最大车速、当前车距、预设的最小车距和预设的最大车距得到期望车速,其计算公式为其中,V(h)表示期望车速,h表示车距,hmin表示预设的最小车距,hmax表示预设的最大车距,vmax表示预设的最大车速;

若当前车距大于预设的最大车距,则期望车速为预设的最大车速;

根据所述期望车速获得各车的期望车距。

4.根据权利要求2所述的智能巡航控制方法,其特征在于,所述离散化处理后获得队列系统的动态方程如下:yi+1=A0yi+B1ui+B2ui‑1;

其中,yi=y(iΔT)和ui=u(iΔT)分别表示当前时刻的状态变量和加速度控制策略,i为采样间隔序号,ΔT为采样间隔,τ为网络诱导时延,λj和 表示与人类驾驶行为有关的系统参数,j为队列中的车辆序号,m为车辆队列中除头车外的车辆总数, 为范围策略在期望车距处的偏导数。

5.一种智能巡航控制装置,其特征在于,包括状态信号单元和智能控制单元;

所述状态信号单元,用于确定自动控制车辆的当前状态信号;

所述智能控制单元,用于将所述自动控制车辆的当前状态信号输入至智能优化控制模型中,实现对所述自动控制车辆的智能巡航控制;

其中,所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型训练得到的;

所述马尔可夫决策过程模型的构建过程包括以下步骤:获取自动控制车辆组建的车辆队列的队列状态信息,并根据所述队列状态信息建立队列系统的动态方程;

根据所述队列系统的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程;

根据所述队列系统的动态方程和所述二次型优化控制方程构建网络化控制的马尔可夫决策过程模型;

所述根据所述队列系统的动态方程,以最小化状态误差和输入为目标函数构建二次型优化控制方程如下:其中,N是采样间隔数,yi和ui分别表示当前时刻的状态变量和加速度控制策略,C与D为系数矩阵:c1和c2为预设系数,m为车辆队列中除头车外的车辆总数;

所述智能优化控制模型是基于所述自动控制车辆组建的车辆队列实时采集状态样本对马尔可夫决策过程模型进行神经网络参数训练得到的,包括:构建包括当前actor网络、当前critic网络、目标actor网络和目标critic网络的深度确定性策略梯度算法对所述马尔可夫决策过程模型参数进行更新;

μ

在每个时隙中根据输入状态sk,当前actor网络将输出相应的动作策略μ(sk|θ),执行策略 并根据状态转移函数得到下一时刻状态sk+1,并根据奖励函数得出相应的奖励rk,将(sk,ak,sk+1,rk)作为样本存储在经验回放缓冲区当中,获得状态样本;其中,η表示随机噪声;

Q

当前critic网络通过最小化如下均方误差损失函数来更新其参数θ:Q

其中,M为小批量采样的样本数,Q(st,at|θ )是当前Q值,通过将st与at输入到当前critic网络中得到,xt为目标Q值,表示为:μ′ Q′

xt=rt+γQ′(st+1,μ′(st+1|θ )|θ )μ′ Q′

式中,rt为相应的奖励函数值,Q′(st+1,μ′(st+1|θ )|θ )为目标critic网络生成的下一μ′Q值,μ′(st+1|θ )为目标actor网络根据输入状态st+1生成的下一动作策略,γ表示折扣因子;

μ

当前actor网络通过如下策略梯度函数来更新其参数θ:μ

其中, 为梯度算子, 表示对θ 求梯度, 表示对a求梯度,J表示当前actor网络函数;

Q' μ'

目标actor网络和目标critic网络通过如下方式来分别更新其参数θ 和θ :Q′ Q Q′

θ ←δθ+(1‑δ)θ

μ′ μ μ′

θ ←δθ+(1‑δ)θ

其中,δ为固定常数,0<δ<<1。

6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的智能巡航控制方法的步骤。

7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述的智能巡航控制方法的步骤。