买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多维奖励Q学习的模型预测加权因子动态调整方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多维奖励Q学习的模型预测加权因子动态调整方法

面议

专利号： 2022108460154

申请人：燕山大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多维奖励Q学习的模型预测加权因子动态调整方法，其特征在于，包括下述步骤：获取目标自动驾驶车辆位于地面坐标系下的测量信息，并设置预测时域Np的大小；

标记Step1的步骤：基于当前测量信息，获得预测时域Np内的输出信息；

将输出信息作为参考输入，通过使下述目标函数取得最小值获得一个最优控制序列，并将得到的最优控制序列的第一个控制量作用于目标自动驾驶车辆，使其按照当前预期轨迹进行跟踪；

所述目标函数如下：

T T

J＝[P(k)‑Yref(k)]Q[P(k)‑Yref(k)]+U(k) RU(k)其中：

是基于采样时刻k的测量信息得到预测时域Np内的参考车辆侧向位移向量；

是参考车辆侧向位移对应的期望车辆侧向位移向量；

为第一加权因子矩阵，为第二加权因子矩阵；

是Nc个控制时域的车辆前轮转角向量，其元素构成控制序列；

若没有达到目标轨迹的终点，则采集目标自动驾驶车辆位于地面坐标系下采样时刻k+

1的测量信息；

采集目标自动驾驶车辆位于地面坐标系下采样时刻k+1的实际横坐标、实际纵坐标、实际横摆角，并获取相同采样时刻对应的期望横坐标、期望纵坐标和期望横摆角一起作为环境信息加入到环境向量中；

判断采样时刻k+1是否大于3，若否，则返回标记为Step1的步骤；若是，则对于采样时刻k+1，基于环境变量计算目标自动驾驶车辆在当前控制量下的奖励，并利用预设的二维Q表，调整目标函数中第一加权因子矩阵、第二加权因子矩阵取值；

返回标记为Step1的步骤。

2.根据权利要求1所述的方法，其特征在于，预测时域Np内的输出信息基于模型预测方程获得：所述模型预测方程如下：

s(k+1)＝Acs(k)+Bcδf(k)

p(k)＝Ccs(k)

Cc＝[1 0 0 0]

式中：

s(k)为采样时刻k的状态输入向量；s(k+1)为采样时刻k+1的状态输入向量；Ac为系统矩阵；Bc为控制矩阵；δf(k)为采样时刻k的前轮转角；p(k)为采样时刻k的输出信息；Cc为输出矩阵；d(k)为采样时刻k的实际侧向位移；为采样时刻k的车辆实际横摆角，β(k)为采样时刻k的车辆实际质心侧偏角、ωr(k)为采样时刻k的车辆实际横摆角速度；Ts是采样时间间隔，v是车辆质心速度；Cf是车辆前轴侧偏刚度；Cr是车辆后轴侧偏刚度；m是车辆质量；vx是车辆沿正前方方向上的速度分量；a是车辆前轴中心到质心距离；b是车辆后轴中心到质心距离；IZ是车辆绕车辆正上方的转动惯量。

3.根据权利要求1所述的方法，其特征在于，所述奖励包括稳定性奖励、精确性奖励、舒适性奖励；

从第3个采样时刻起，对于采样时刻k+1，通过下面式(1)、(2)、(3)分别计算采样时刻k+

1的稳定性奖励Rw、精确性奖励Rj、舒适性奖励Rs，从而获得采样时刻k+1的奖励之和Rk+1；

式(1)中：Yk为采样时刻k的实际车辆侧向位移；rw为设定的奖励值；Y′k表示稳定性参数；Dw为设定的第一常量；

式(2)中：rj表示奖励值；Dj为设定的第二常量；Yk‑1为采样时刻k‑1的实际车辆侧向位移；Yk为采样时刻k的实际车辆侧向位移；Yk+1为采样时刻k+1的实际车辆侧向位移；Yref，k‑1、Yref，k、Yref，k+1分别为Yk‑1、Yk、Yk+1对应的期望车辆侧向位移；

式(3)中：rs表示奖励值，Ds为设定的第三常量；为采样时刻k‑1的实际横摆角，为采样时刻k的实际横摆角，为采样时刻k+1的实际横摆角；分别为对应的期望横摆角。

4.根据权利要求3所述的方法，其特征在于，所述预设的二维Q表通过下述步骤获得：建立关于状态‑动作对的二维Q表Q(S，A)，S为状态集合，A为动作集合，表中元素初值为

0；

设定当前迭代轮次初始值为0，设定最大迭代次数Num设定学习率α、折扣因子Y的值；

获取当前迭代轮次；

标记step3的步骤：从第三个采样时刻开始，对每一个采样时刻k+1，将当前车辆侧向位移和车辆前轮转角作为当前状态Sk+1，将调整目标函数的加权因子值作为可行动作ak+1，通过式(1)、(2)、(3)分别计算采样时刻k+1的车辆状态Sk+1在可行动作ak+1下获得的奖励Rk+1；

根式据下式更新二维Q表中的Q值：

Qnew(sk+1，ak+1)＝Qold(sk+1，ak+1)+α(Rk+1+γ·max Q′(sk+2，ak+2)‑Qold(sk+1，ak+1))式中：Qnew(sk+1，ak+1)表示在当前迭代轮次中目标自动驾驶车辆在状态sk+1可行动作ak+1下的Q值；Qold(sk+1，ak+1)表示在上一迭代轮次中目标自动驾驶车辆在状态sk+1可行动作ak+1下的Q值，若当前迭代轮次为第1次，则Qold(sk+1，ak+1)＝0；max Q′(sk+2，ak+2)表示在当前迭代轮次中目标自动驾驶车辆在状态sk+2将对应的最大Q值；

若目标自动驾驶车辆尚未到达终点，则返回标记step3的步骤；否则，若当前迭代轮次尚未达到最大迭代次数Num，则将当前迭代轮次自增1，同时将重置采样时刻，使目标自动驾驶车辆从起点开始重新进行轨迹跟踪训练。

5.根据权利要求3所述的方法，其特征在于，稳定性参数通过下式进行计算：式中：Xk为采样时刻k的实际横坐标；Xk‑1为采样时刻k‑1的实际横坐标；Xk+1为采样时刻k+1的实际横坐标。

6.根据权利要求4所述的方法，其特征在于，所述动作集合通过下述步骤确定：建立动作集合A：

A＝{a1：Qrk＝Qrk‑1‑0.1，a2：Qrk＝Qrk‑1，a3：Qrk＝Qrk‑1+0.1}式中：Qrk为采样时刻k的加权因子比例参数；Qrk‑1为采样时刻k‑1的加权因子比例参数；

获取目标自动驾驶车辆位于地面坐标系下的当前测量信息，并设置预测时域Np的大小；

标记Step2的步骤：基于当前测量信息，获得预测时域Np内的输出信息；

将输出信息作为参考输入，通过使下述目标函数取得最小值获得一个最优控制序列，并将得到的最优控制序列的第一个元素作用于目标自动驾驶车辆；

按照动作集合中的动作，依次调整并计算确定目标函数的加权因子，记录每一个动作下的控制量，获得初始状态‑动作控制量表；

基于初始状态‑动作控制量表，按照阈值范围进行判断，将不在阈值范围的动作标识为不可行：Usafe，k＝{uk|uk∈U且Δuk∈ΔU，k∈[ti，ti+2]}U＝[Umin，Umax]

ΔU＝[ΔUmin，ΔUmax]

其中，Usafe，k为采样时刻k的合理控制量的集合；uk为在采样时刻k下的控制量；Δuk为采样时刻k的控制增量；[ti，ti+2]为当前状态采取动作执行后的观测时间，ti为采取动作后的第一个采样时间；ti+2为采取动作后的第三个采样时间，Umin为最小控制量，Umax为最大控制量，ΔUmin为最小控制增量，ΔUmax为最大控制增量。

7.根据权利要求1所述的方法，其特征在于，所述调整目标函数中加权因子的取值通过采用ε‑greedy策略实现。