利索能及
我要发布
收藏
专利号: 201910823151X
申请人: 常熟理工学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,包括以下步骤:步骤(1)初始化模型,设置环境的状态空间X和动作空间U,状态采用二维向量x=(w,v)∈X来表示,w为小车在水平方向的位置,v为小车在水平方向的速度,小车可以执行的动作为加速度u∈U;高斯过程近似模型即状态迁移函数中的临时变量为向量 变量d=0、变量s=0和矩阵 为状态x对应特征函数,φ(x,u)为状态动作对(x,u)的特征函数;

步骤(2)初始化超参数,设置折扣率γ,衰减因子λ,最大情节数E,高斯函数的探索方差σ2,矩阵ΔNk中对角线上的各个元素σi2,1≤i≤k,每个情节所包含的最大时间步T,值函数和策略的学习率α,当前情节数e=1,值函数参数向量 策略参数向量 高斯过程近似模型参数向量 规划最大的次数K;

步骤(3)初始化小车上山系统的状态空间和动作空间的范围,初始化控制成功或失败的条件,当前时间步t=1,当前状态x=x1;

步骤(4)以当前最优动作u*作为高斯函数的均值,以步骤(2)中指定的探索方差σ2作为方差建立高斯方程N(u*,σ2),利用高斯方程产生当前要执行的动作ut;

步骤(5)在当前状态xt下,执行步骤(4)中确定的动作ut,并利用系统的动态性方程得到小车的下一个状态xt+1,同时利用奖赏函数获得立即奖赏rt+1,构成样本(xt,ut,xt+1,rt+1);

步骤(6)利用样本计算值函数的TD误差δt:δt=rt+1+γV(xt+1,νt)-V(xt,νt),其中,νt表示状态xt对应的值函数的参数,V(xt+1,νt)表示状态xt+1对应的值函数,V(xt,νt)表示状态xt对应的值函数;

步骤(7)更新值函数的资格迹et+1:

步骤(8)更新值函数参数vt+1:vt+1←vt+αδtet+1;

步骤(9)更新策略参数θt+1:θt+1←θt+αδt(u*-ut);

步骤(10)利用该样本来更新模型中间公式pt+1、dt+1、st+1和Pt+1;

其中,ut+1

表示根据步骤(4)可以得到在状态xt+1处执行的动作,ut表示根据步骤(4)可以得到在状态xt时间步执行的动作,σt为在时间步t时,高斯过程近似模型的标准差;

步骤(11)采用当前样本更新状态迁移函数参数向量:步骤(12)更新当前状态:x=xt+1,判断xt+1中的状态分量wt+1是否控制成功条件:如果是,则令e=e+1,并判断当前情节e==E是否成立:如果达到,则转入步骤(19);

否则,转入步骤(13);

步骤(13)初始化规划次数k=1,规划过程的初始状态x′k=x1;

步骤(14)在当前状态为x′k时,根据步骤(4)选择要执行的动作uk,然后根据高斯过程近似模型预测下一个状态: 其中,Φk=(φ(x′1,u0),φ(x′2,u1),...,φ(x′k,ut))T为到t时间步处的状态特征矩阵,β为高斯过程的模型参数,ΔNt∈Rt×t是到t时间步为止位置分量满足高斯分布的噪声矩阵;

步骤(15)根据高斯过程近似模型更新资格迹:

步骤(16)根据高斯过程近似模型产生的模拟样本更新值函数参数:vk+1←vk+αδkek+1,其中δk为值函数的TD误差;

步骤(17)根据高斯过程近似模型产生的模拟样本更新策略参数:θk+1←θk+αδkΔuk,其中Δuk=u*-uk,u*为当前最优动作,uk表示利用高斯方程N(u*,σ2)产生的当前要执行的动作;

步骤(18)对当前规划次数k进行判断:

如果k==K

则更新当前时间步骤t=t+1,并对其进行判断;

如果当前时间步没有达到最大时间步T

转入步骤(4)继续运行;

否则

更新当前情节e=e+1,并对当前情节进行判断:

如果当前情节e==E

转入步骤(19);

否则

转入步骤(3);

否则

k=k+1,并转入步骤(14);

步骤(19)输出最优策略,此时小车从其初始状态x0出发,在任意状态xt处,采用最优策略 来获得任意状态xt对应的最优动作,直到达到目标状态。

2.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(4)中最优动作的求解 其中, 为状态xt对应的特征,θt表示时间步t对应的策略参数。

3.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(5)中在给定当前状态x=xt=(wt,vt),wt为位置分量,vt为速度分量,其下一个状态可以表示为xt+1=(wt+1,vt+1),其中,下一时间步的速度分量可以通过vt+1=vt+

0.001ut+gcos(3wt)来求解,而下一时间步的状态分量可以通过wt+1=wt+vt+1来求解,其中,g=-0.0025为重力加速度,奖赏函数为:如果下一状态为xt+1为目标状态时,rt+1=0,否则rt+1=-1。

4.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(6)中在状态值函数的表达式为 其中,νt表示状态xt对应的值函数的参数, 表示状态xt+1对应的值函数, 为状态xt对应的特征,rt+1为在状态xt处执行动作ut时获得的奖赏。

5.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(7)中的资格迹更新公式为: 其中,et表示状态xt对应的资格迹,et+1表示状态xt+1对应的资格迹。

6.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其*特征在于,所述步骤(9)中策略参数θt+1:θt+1←θt+αδt(u-ut),其中δt为步骤(7)对应的值函数的TD误差。

7.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(11)中状态迁移函数参数向量: 其中pt+1、dt+1和st+1是根据步骤(10)求取的,βt为时间步t对应的高斯过程近似模型即状态迁移函数的参数向量。

8.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法,其特征在于,所述步骤(14)中基于高斯过程近似模型得到的下一个状态为其中,Φk=(φ(x′1,u1),φ(x′2,u2),...,φ(x′k,uk))T为到时间步k处的状态特征矩阵,x′1为规划的初始状态,x′k为规划为从x′1开始规划k次后达到的状态;β为高斯过程的模型参数,ΔNk∈Rk×k是到k时间步为止的位置分量满足高斯分布的噪声矩阵,即