买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于高斯过程近似模型的小车上山系统自适应控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于高斯过程近似模型的小车上山系统自适应控制方法

￥25000

专利号： 201910823151X

申请人：常熟理工学院

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，包括以下步骤：步骤(1)初始化模型，设置环境的状态空间X和动作空间U，状态采用二维向量x＝(w,v)∈X来表示，w为小车在水平方向的位置，v为小车在水平方向的速度，小车可以执行的动作为加速度u∈U；高斯过程近似模型即状态迁移函数中的临时变量为向量变量d＝0、变量s＝0和矩阵为状态x对应特征函数，φ(x,u)为状态动作对(x,u)的特征函数；

步骤(2)初始化超参数，设置折扣率γ，衰减因子λ，最大情节数E，高斯函数的探索方差σ2，矩阵ΔNk中对角线上的各个元素σi2,1≤i≤k，每个情节所包含的最大时间步T，值函数和策略的学习率α，当前情节数e＝1，值函数参数向量策略参数向量高斯过程近似模型参数向量规划最大的次数K；

步骤(3)初始化小车上山系统的状态空间和动作空间的范围，初始化控制成功或失败的条件，当前时间步t＝1，当前状态x＝x1；

步骤(4)以当前最优动作u*作为高斯函数的均值，以步骤(2)中指定的探索方差σ2作为方差建立高斯方程N(u*,σ2)，利用高斯方程产生当前要执行的动作ut；

步骤(5)在当前状态xt下，执行步骤(4)中确定的动作ut，并利用系统的动态性方程得到小车的下一个状态xt+1，同时利用奖赏函数获得立即奖赏rt+1，构成样本(xt,ut,xt+1,rt+1)；

步骤(6)利用样本计算值函数的TD误差δt：δt＝rt+1+γV(xt+1,νt)-V(xt,νt)，其中，νt表示状态xt对应的值函数的参数，V(xt+1,νt)表示状态xt+1对应的值函数，V(xt,νt)表示状态xt对应的值函数；

步骤(7)更新值函数的资格迹et+1：

步骤(8)更新值函数参数vt+1：vt+1←vt+αδtet+1；

步骤(9)更新策略参数θt+1：θt+1←θt+αδt(u*-ut)；

步骤(10)利用该样本来更新模型中间公式pt+1、dt+1、st+1和Pt+1；

其中，ut+1

表示根据步骤(4)可以得到在状态xt+1处执行的动作，ut表示根据步骤(4)可以得到在状态xt时间步执行的动作，σt为在时间步t时，高斯过程近似模型的标准差；

步骤(11)采用当前样本更新状态迁移函数参数向量：步骤(12)更新当前状态：x＝xt+1，判断xt+1中的状态分量wt+1是否控制成功条件：如果是，则令e＝e+1，并判断当前情节e＝＝E是否成立：如果达到，则转入步骤(19)；

否则，转入步骤(13)；

步骤(13)初始化规划次数k＝1，规划过程的初始状态x′k＝x1；

步骤(14)在当前状态为x′k时，根据步骤(4)选择要执行的动作uk，然后根据高斯过程近似模型预测下一个状态：其中，Φk＝(φ(x′1,u0),φ(x′2,u1),...,φ(x′k,ut))T为到t时间步处的状态特征矩阵，β为高斯过程的模型参数，ΔNt∈Rt×t是到t时间步为止位置分量满足高斯分布的噪声矩阵；

步骤(15)根据高斯过程近似模型更新资格迹：

步骤(16)根据高斯过程近似模型产生的模拟样本更新值函数参数：vk+1←vk+αδkek+1，其中δk为值函数的TD误差；

步骤(17)根据高斯过程近似模型产生的模拟样本更新策略参数：θk+1←θk+αδkΔuk，其中Δuk＝u*-uk，u*为当前最优动作，uk表示利用高斯方程N(u*,σ2)产生的当前要执行的动作；

步骤(18)对当前规划次数k进行判断：

如果k＝＝K

则更新当前时间步骤t＝t+1，并对其进行判断；

如果当前时间步没有达到最大时间步T

转入步骤(4)继续运行；

否则

更新当前情节e＝e+1，并对当前情节进行判断：

如果当前情节e＝＝E

转入步骤(19)；

否则

转入步骤(3)；

否则

k＝k+1，并转入步骤(14)；

步骤(19)输出最优策略，此时小车从其初始状态x0出发，在任意状态xt处，采用最优策略来获得任意状态xt对应的最优动作，直到达到目标状态。

2.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(4)中最优动作的求解其中，为状态xt对应的特征，θt表示时间步t对应的策略参数。

3.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(5)中在给定当前状态x＝xt＝(wt,vt)，wt为位置分量，vt为速度分量，其下一个状态可以表示为xt+1＝(wt+1,vt+1)，其中，下一时间步的速度分量可以通过vt+1＝vt+

0.001ut+gcos(3wt)来求解，而下一时间步的状态分量可以通过wt+1＝wt+vt+1来求解，其中，g＝-0.0025为重力加速度，奖赏函数为：如果下一状态为xt+1为目标状态时，rt+1＝0，否则rt+1＝-1。

4.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(6)中在状态值函数的表达式为其中，νt表示状态xt对应的值函数的参数，表示状态xt+1对应的值函数，为状态xt对应的特征，rt+1为在状态xt处执行动作ut时获得的奖赏。

5.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(7)中的资格迹更新公式为：其中，et表示状态xt对应的资格迹，et+1表示状态xt+1对应的资格迹。

6.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其*特征在于，所述步骤(9)中策略参数θt+1：θt+1←θt+αδt(u-ut)，其中δt为步骤(7)对应的值函数的TD误差。

7.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(11)中状态迁移函数参数向量：其中pt+1、dt+1和st+1是根据步骤(10)求取的，βt为时间步t对应的高斯过程近似模型即状态迁移函数的参数向量。

8.根据权利要求1所述的基于高斯过程近似模型的小车上山系统自适应控制方法，其特征在于，所述步骤(14)中基于高斯过程近似模型得到的下一个状态为其中，Φk＝(φ(x′1,u1),φ(x′2,u2),...,φ(x′k,uk))T为到时间步k处的状态特征矩阵，x′1为规划的初始状态，x′k为规划为从x′1开始规划k次后达到的状态；β为高斯过程的模型参数，ΔNk∈Rk×k是到k时间步为止的位置分量满足高斯分布的噪声矩阵，即