1.一种基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,具体包括如下步骤:步骤1:将机器人运动模型转化为状态空间方程,得到机器人的连续时间非线性系统状n态方程,并定义跟踪误差er(t)=x(t)‑r(t),其中r(t)∈R为参考信号,x(t)为状态向量;
步骤2:设计预定性能函数对轨迹跟踪误差进行约束,引入严格递增误差变换函数,将受约束的轨迹跟踪误差变换为无约束的等效函数;
设计的预定性能函数为:
‑λlζ(t)≤er(t)≤λuζ(t) (6)‑αt
ζ(t)=(ζ(0)‑ζ(∞))e +ζ(∞) (7)其中,ζ(t)为具有正定、平滑、递减特性的预定性能函数PPF,ζ(0)>ζ(∞)>0和α>0,l和u分别为调整下界和上界的正常数;预定性能函数描述自定义区域内的误差,通过初始跟踪误差设计ζ(0),并使用ζ(∞)限制稳态残差集,使用时延控制方法调整轨迹跟踪误差的收敛速度;
步骤3:结合预定性能函数处理后的轨迹跟踪误差与初始非线性系统,构建增广系统;
步骤4:针对增广系统,构建基于轨迹跟踪误差和控制成本的价值函数,利用价值函数构建HJB方程,利用数据驱动强化学习算法在系统动力学未知的情况下求解出最优控制策略;
步骤5:根据李雅普诺夫稳定性进行分析,证明系统能够保持稳定的情况下,轨迹跟踪误差收敛在所预定的区域内,且保证所设计的策略为基于轨迹跟踪误差和输入成本的最优策略。
2.根据权利要求1所述的基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,所述步骤1中,采用非完整系统的数学建模方法得到的非线性方程如下
3×3 3×3 3×1
其中,M∈R 是惯性矩阵,C∈R 是离心力和科里奥力矩阵,G∈R 是重力矩阵,q是
3×2 2×1
广义坐标,W∈R 为输入矩阵,τ∈R 为输入向量;
广义坐标 其中分别包括机器人的直线运动、俯仰运动和偏航运动,所有的摩擦项都被忽略;取惯性矩阵的逆,则状态向量为 输出向量为uT
=[TL TR],则机器人的连续时间非线性系统状态方程表示为:式中,A(x)和g(x)与状态相关的矩阵;
其中,a2(x),a4(x),a6(x),b2(x),b4(x)和b6(x)分别为关于状态的未知函数;
假设非线性系统是可稳定的,f(x)+g(x)u满足局部Lipschitz条件且f(0)=0,存在正常数bf,bg,使得不等式‖f(x)‖≤bf||x||,||g(x)||≤bg成立;
定义最优轨迹方程为:
n
其中,r(t)∈R为参考信号,轨迹跟踪误差被定义为:er(t)=x(t)‑r(t) (5)
3.根据权利要求1所述的一种基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,所述步骤2中,设计预定性能函数对误差进行约束,根据预定性能函数引入严格递增误差变换函数,将受约束的轨迹跟踪误差变换为无约束的等效函数具体为:引入严格递增误差变换函数Λ(z(t)),并且满足以下属性:其中,λl和λu为分别为规定性能函数调整下界和上界的正常数,z(t)为无约束误差;
轨迹跟踪误差定义为:
因此,严格递增函数表示为:
结合上两式,得到
其导数为:
其中,
4.根据权利要求3所述的基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,在步骤3中构建增广系统具体如下:转化后的轨迹跟踪误差与机器人系统动态方程结合,得到无约束增广系统:其中,
其中,z为无约束误差集合,r为参考信号,针对增广系统做出假设:||F(ξ)||≤bF||ξ||,bGmin≤||G(ξ)||≤bGmax,bF,bGmin及bGmax是常数。
5.根据权利要求4所述的基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,所述步骤4中,基于轨迹跟踪误差和控制成本的价值函数具体如下:基于重构后的增广系统,考虑轨迹跟踪误差和控制代价,将价值函数定义为:∞ ‑γ(τ‑t) T T
V(ξ(t))=∫t e [ξ(τ)Qξ(τ)+u(τ)Ru(τ)]dτ (16)
4×4 1×1 T
其中,γ∈(0,1)是折扣因子,Q∈R 以及R∈R 都是对称正定矩阵,ξ(τ)Qξ(τ)表示T跟踪成本,u(τ)Ru(τ)表示输入成本;
定义与控制输入u相关的价值函数(16)的哈密顿量如下:T T
H(ξ,u)=S(ξ)+uRu‑γV(ξ)+▽V(ξ) (F(ξ)+G(ξ)u) (17)T其中,误差成本S(ξ)=ξ(t)Qξ(t), 根据静态原则 得到最*
优控制输入u:
根据最优控制策略,得最优价值函数为:* ∞ ‑γ(τ‑t) T *T *V(ξ(t))=∫t e [ξ(τ)Qξ(τ)+u (τ)Ru(τ)]dτ (19)将(18)式代入(17)式,得到相应的跟踪HJB方程:
6.根据权利要求5所述的基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,所述步骤4中利用数据驱动强化学习算法求解出最优控制策略的具体操作如下:利用神经网络对价值函数进行近似:
L×1
其中, 是一个合适的线性无关基向量,包含L项,δ(ξ)是近似误差,W∈R 为理想权值,以及假设1: δ(ξ)和▽δ(ξ)都是有界的,即 ||δ(ξ)||≤bδ以及||▽δ(ξ)||≤b▽δ,其中, b▽δ以及bδ为正常数;
将近似的价值函数代入到(20)式中,得到基于近似的跟踪HJB方程为:‑1 T
其中,Λ=G(ξ)R G(ξ) >0且有界,有函数近似误差引起的跟踪HJB近似误差表示为:其误差在L上的紧集是有界的,即存在一个常数 使得然而理想权值是未知的,因此,利用 来近似理想权值,即值函数近似为:控制输入表示为:
将近似的控制输入代入(17)式中,得到近似哈密顿量:接下来定义误差函数,并选择权值更新的方向为最小化误差函数,定义的误差函数表示为:其中, 以及ΔT>0为神经网络学习的取样时间,权值更新率的设计在考虑最小化误差的同时也要考虑系统的稳定性,同时引入并行学习技术,消除PE条件,权值更新率设计如下:T 2
其中,α1为可调参数,(κκ+1) 用于归一化处理;等式右边第一项是通过归一化梯度下降算法得出,第二项用于保证系统的稳定性,第三项的设计来源于并行学习技术,并行学习技术需要同时存储历史数据和当前数据来优化权值,即第三项为过去历史时间tj,j=
1,...,l的权值更新率,从而消除自适应控制过程中的持续激励条件;
其中,
以及,
根据(31)式和(32)式得到:
定义权值估计误差为 那么 因此权值的动态误差表示为:其中
T
π=κκ+1,
针对权值更新做出假设δH和 是有界的,即 定义集合存储历史数据,并保证其满秩,即rank(Ω)=L,且满足l<L。
7.根据权利要求6所述的基于预定性能误差的两轮自平衡机器人的强化学习控制方法,其特征在于,所述步骤5中,证明过程如下:考虑带有跟踪HJB方程(20)的增强系统动力学公式(14),控制输入由公式(25)提供,令式(28)给出权值W的调谐律,考虑Lyapunov函数:其导数为:
T T
当 时,即ξ(t)ξ(t)‑ξ(t‑ΔT)ξ(t‑ΔT)≤0,得到:根据式(37),其中存在正常数χ,满足以下关系将(34)式和(38)式代入(36)式中得到:其中, 其中状态ξ和权值误差 满足下列不等式:其中,λmax(Θ)和λmin(Θ)分别为Θ的最大以及最小特征值;
当 时,将 添加到(35)式中的Lyapunov函数,得到:其中, 是跟踪HJB方程(20)的局部光滑解,对(41)式求导得:其中,状态ξ和权值误差 满足下列不等式:即需要满足: 以及 从而证明了跟踪误差和神经网络权值估计误差的一直最终有界;
由推导步骤可知:闭环系统的轨迹跟踪误差et(t)受到性能函数的约束,能够保证快速的收敛到规定的界当中,将受约束的轨迹跟踪误差与原机器人系统组成增广系统,对增广系统构建其跟踪成本以及输入成本的函数,由神经网络对成本函数进行近似,得到价值函数及控制策略的近似形式,由推导可得,增广系统的状态ξ以及神经网络的权值误差 都是一致最终有界的,由于 以及 因此价值函数的近似误差 最 优 控制 策略 的 近似 误 差都是有界的;至此,针对误差约束的两轮自平衡机器人非线性系统的最优控制目标都能够实现。