利索能及
我要发布
收藏
专利号: 2022108460154
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多维奖励Q学习的模型预测加权因子动态调整方法,其特征在于,包括下述步骤:获取目标自动驾驶车辆位于地面坐标系下的测量信息,并设置预测时域Np的大小;

标记Step1的步骤:基于当前测量信息,获得预测时域Np内的输出信息;

将输出信息作为参考输入,通过使下述目标函数取得最小值获得一个最优控制序列,并将得到的最优控制序列的第一个控制量作用于目标自动驾驶车辆,使其按照当前预期轨迹进行跟踪;

所述目标函数如下:

T T

J=[P(k)‑Yref(k)]Q[P(k)‑Yref(k)]+U(k) RU(k)其中:

是基于采样时刻k的测量信息得到预测时域Np内的参考车辆侧向位移向量;

是参考车辆侧向位移对应的期望车辆侧向位移向量;

为第一加权因子矩阵, 为第二加权因子矩阵;

是Nc个控制时域的车辆前轮转角向量,其元素构成控制序列;

若没有达到目标轨迹的终点,则采集目标自动驾驶车辆位于地面坐标系下采样时刻k+

1的测量信息;

采集目标自动驾驶车辆位于地面坐标系下采样时刻k+1的实际横坐标、实际纵坐标、实际横摆角,并获取相同采样时刻对应的期望横坐标、期望纵坐标和期望横摆角一起作为环境信息加入到环境向量中;

判断采样时刻k+1是否大于3,若否,则返回标记为Step1的步骤;若是,则对于采样时刻k+1,基于环境变量计算目标自动驾驶车辆在当前控制量下的奖励,并利用预设的二维Q表,调整目标函数中第一加权因子矩阵、第二加权因子矩阵取值;

返回标记为Step1的步骤。

2.根据权利要求1所述的方法,其特征在于,预测时域Np内的输出信息基于模型预测方程获得:所述模型预测方程如下:

s(k+1)=Acs(k)+Bcδf(k)

p(k)=Ccs(k)

Cc=[1 0 0 0]

式中:

s(k)为采样时刻k的状态输入向量;s(k+1)为采样时刻k+1的状态输入向量;Ac为系统矩阵;Bc为控制矩阵;δf(k)为采样时刻k的前轮转角;p(k)为采样时刻k的输出信息;Cc为输出矩阵;d(k)为采样时刻k的实际侧向位移; 为采样时刻k的车辆实际横摆角,β(k)为采样时刻k的车辆实际质心侧偏角、ωr(k)为采样时刻k的车辆实际横摆角速度;Ts是采样时间间隔,v是车辆质心速度;Cf是车辆前轴侧偏刚度;Cr是车辆后轴侧偏刚度;m是车辆质量;vx是车辆沿正前方方向上的速度分量;a是车辆前轴中心到质心距离;b是车辆后轴中心到质心距离;IZ是车辆绕车辆正上方的转动惯量。

3.根据权利要求1所述的方法,其特征在于,所述奖励包括稳定性奖励、精确性奖励、舒适性奖励;

从第3个采样时刻起,对于采样时刻k+1,通过下面式(1)、(2)、(3)分别计算采样时刻k+

1的稳定性奖励Rw、精确性奖励Rj、舒适性奖励Rs,从而获得采样时刻k+1的奖励之和Rk+1;

式(1)中:Yk为采样时刻k的实际车辆侧向位移;rw为设定的奖励值;Y′k表示稳定性参数;Dw为设定的第一常量;

式(2)中:rj表示奖励值;Dj为设定的第二常量;Yk‑1为采样时刻k‑1的实际车辆侧向位移;Yk为采样时刻k的实际车辆侧向位移;Yk+1为采样时刻k+1的实际车辆侧向位移;Yref,k‑1、Yref,k、Yref,k+1分别为Yk‑1、Yk、Yk+1对应的期望车辆侧向位移;

式(3)中:rs表示奖励值,Ds为设定的第三常量; 为采样时刻k‑1的实际横摆角, 为采样时刻k的实际横摆角, 为采样时刻k+1的实际横摆角; 分别为 对应的期望横摆角。

4.根据权利要求3所述的方法,其特征在于,所述预设的二维Q表通过下述步骤获得:建立关于状态‑动作对的二维Q表Q(S,A),S为状态集合,A为动作集合,表中元素初值为

0;

设定当前迭代轮次初始值为0,设定最大迭代次数Num设定学习率α、折扣因子Y的值;

获取当前迭代轮次;

标记step3的步骤:从第三个采样时刻开始,对每一个采样时刻k+1,将当前车辆侧向位移和车辆前轮转角作为当前状态Sk+1,将调整目标函数的加权因子值作为可行动作ak+1,通过式(1)、(2)、(3)分别计算采样时刻k+1的车辆状态Sk+1在可行动作ak+1下获得的奖励Rk+1;

根式据下式更新二维Q表中的Q值:

Qnew(sk+1,ak+1)=Qold(sk+1,ak+1)+α(Rk+1+γ·max Q′(sk+2,ak+2)‑Qold(sk+1,ak+1))式中:Qnew(sk+1,ak+1)表示在当前迭代轮次中目标自动驾驶车辆在状态sk+1可行动作ak+1下的Q值;Qold(sk+1,ak+1)表示在上一迭代轮次中目标自动驾驶车辆在状态sk+1可行动作ak+1下的Q值,若当前迭代轮次为第1次,则Qold(sk+1,ak+1)=0;max Q′(sk+2,ak+2)表示在当前迭代轮次中目标自动驾驶车辆在状态sk+2将对应的最大Q值;

若目标自动驾驶车辆尚未到达终点,则返回标记step3的步骤;否则,若当前迭代轮次尚未达到最大迭代次数Num,则将当前迭代轮次自增1,同时将重置采样时刻,使目标自动驾驶车辆从起点开始重新进行轨迹跟踪训练。

5.根据权利要求3所述的方法,其特征在于,稳定性参数通过下式进行计算:式中:Xk为采样时刻k的实际横坐标;Xk‑1为采样时刻k‑1的实际横坐标;Xk+1为采样时刻k+1的实际横坐标。

6.根据权利要求4所述的方法,其特征在于,所述动作集合通过下述步骤确定:建立动作集合A:

A={a1:Qrk=Qrk‑1‑0.1,a2:Qrk=Qrk‑1,a3:Qrk=Qrk‑1+0.1}式中:Qrk为采样时刻k的加权因子比例参数;Qrk‑1为采样时刻k‑1的加权因子比例参数;

获取目标自动驾驶车辆位于地面坐标系下的当前测量信息,并设置预测时域Np的大小;

标记Step2的步骤:基于当前测量信息,获得预测时域Np内的输出信息;

将输出信息作为参考输入,通过使下述目标函数取得最小值获得一个最优控制序列,并将得到的最优控制序列的第一个元素作用于目标自动驾驶车辆;

按照动作集合中的动作,依次调整并计算确定目标函数的加权因子,记录每一个动作下的控制量,获得初始状态‑动作控制量表;

基于初始状态‑动作控制量表,按照阈值范围进行判断,将不在阈值范围的动作标识为不可行:Usafe,k={uk|uk∈U且Δuk∈ΔU,k∈[ti,ti+2]}U=[Umin,Umax]

ΔU=[ΔUmin,ΔUmax]

其中,Usafe,k为采样时刻k的合理控制量的集合;uk为在采样时刻k下的控制量;Δuk为采样时刻k的控制增量;[ti,ti+2]为当前状态采取动作执行后的观测时间,ti为采取动作后的第一个采样时间;ti+2为采取动作后的第三个采样时间,Umin为最小控制量,Umax为最大控制量,ΔUmin为最小控制增量,ΔUmax为最大控制增量。

7.根据权利要求1所述的方法,其特征在于,所述调整目标函数中加权因子的取值通过采用ε‑greedy策略实现。