1.基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述方法包括:步骤1:建立高超声速飞行器纵向动力学模型为:其中,V,h,γ,α,Q分别表示飞行器的速度,高度,航迹角,攻角以及俯仰角速度,m为飞行器质量,Iyy为转动惯量,g为重力加速度,ζi为阻尼比,ωi为柔性模态频率,ηi为第i个弯曲模态的振幅,L,D,T,M,Ni分别表示升力,阻力,推力,俯仰力矩,广义弹性力,表达式为:其中, S,zT,为飞行动压,参考面积,推力力臂,平均空气动力弦长,并且式(2)中的参数拟合形式为其中,Φ,δe分别为燃料当量比,升降舵偏转角,皆为系统的输入, 为升力系数, 为阻力系数, 为
力矩系数, 为推力系数;
步骤2:将高超声速飞行器纵向动力学模型化简为仿射非线性系统模型;
具体为,将高超声速飞行器纵向动力学模型分解为速度子系统与高度子系统,并进一步化简为仿射非线性系统模型,包括:将速度子系统化简为:
其中,
其中,ΔV表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动,将高度子系统化简为:
其中,
gα=1,
其中,Δγ,Δα,ΔQ表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动;
不失一般性,速度子系统和高度子系统归纳为仿射非线性系统模型,如下:其中,对于速度子系统,x=xV=V是速度子系统的状态;u=Φ是速度子系统的控制输入;d=dV是集中扰动;f(x)=fV和g(x)=gV是李普希兹连续函数;
T T
对于高度子系统,x=[xh,xγ,xα,xQ]=[h,γ ,α,Q] 是高度子系统的状态;u=δe是高度T T子系统的控制输入;f(x)=[fh(x),fγ(x),fα(x),fQ(x)]=[Vγ ,fγ+gγα,fα+gαQ,fQ] 和g(x)T T T=[gh(x),gγ(x),gα(x),gQ(x)]=[0,0,0,gQ] 是李普希兹连续函数;d=[0,dγ,dα,dQ] 是集中扰动;
步骤3:基于障碍函数的系统变换,将高超声速飞行器纵向动力学的全状态安全约束问题转化为无约束零和博弈问题;
步骤4:采用安全强化学习方法在执行‑评价‑扰动框架下学习所述零和博弈问题的最优控制策略和最差扰动策略;
步骤5:采用了梯度下降法和经验回放技术更新网络权值并对闭环系统中所有信号进行稳定性分析。
2.根据权利要求1所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤3中,将高超声速飞行器纵向动力学的全状态约束在安全区域内,即具有全状态约束的高超声速飞行器的安全控制问题,描述如下:T
问题1:考虑仿射非线性系统模型(3),状态x=[x1,...,xn]满足下列约束xi∈(si,Si),i=1,...,n, (4)n m
其中,si<0,Si>0,找到策略u:R→R,使得对 仿射非线性系统模型(3)具有小于或等于γ的L2增益,即
其中,U(x,u)是正定函数;
在此基础上,提出了基于障碍函数的系统变换,将给出的具有非对称的全状态约束的安全控制问题转化为无约束稳定性问题,具体描述如下:定义1,障碍函数:定义在(s0,S0)上的函数ζ(·)是障碍函数,如果有其中,s0和S0是满足s0<0
根据定义1,下式成立
其中,
T
因此,变换后的变量δ=[δ1,...,δn]所满足的动力学表示为T T T
其中,F(δ)=[F1(δ),...,Fn(δ)] ,G(δ)=[0,...,0,gn(δ)] ,K(δ)=[K1(δ),...,Kn(δ)] .假设1:动力学系统(7)满足:
1)F(δ)是李普希兹的,F(0)=0,对δ∈Ωδ,存在常数fm使得||F(δ)||≤fm||δ||,其中,Ωδ是包含原点的紧集;
2)G(δ)和K(δ)在Ωδ上是有界的,即存在常数bg和bK使得||G(δ)||≤bg,||K(δ)||≤bK;
3)在紧集Ωδ上,动力学系统(7)是可控的;
在前述中,引入障碍函数,将高超声速飞行器的仿射非线性系统模型(3)转化为等价动力学系统(7),下面,考虑问题1中的干扰衰减,引入零和微分对策框架;对于控制策略为u,扰动策略为d,考虑下面的代价函数:T
其中, 为奖励函数,Q(δ)=δ Qδ,Q和R是对称正定矩阵;
问题2:对于控制策略为u,扰动策略为d的动力学系统(7),找到所述零和博弈问题的纳* *什均衡(u ,d);
定义哈密尔顿量为:
其中, 是梯度向量;
然后,对代价函数V(δ)求导得到贝尔曼方程为根据博弈论,扰动衰减问题等价于求解如下二人零和博弈二人零和博弈有唯一解若纳什条件成立
最优性的平稳条件为
* *
则得到最优控制策略u和最差扰动策略d分别为* *
其中,(u ,d)表示零和博弈的纳什均衡;
* *
将纳什均衡(u ,d)代入到贝尔曼方程中,得到哈密尔顿‑雅可比‑埃萨克斯方程假设2:性能函数(8)满足零状态可观测性。
3.根据权利要求2所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤4中,通过应用评价‑执行‑扰动框架实现在线安全强化学习方法来学习最优控制策略和最差扰动策略,首先,评价网络:
求解哈密尔顿‑雅可比‑埃萨克斯方程的最初步骤是通过采用如下评价网络近似最优代价函数和最优代价函数梯度:l l
其中,ωc∈R 是理想的评价权值,σc(δ):Ωδ→R是激活函数,l是隐藏层的神经元数,εc(δ)是评价网络逼近误差,* *
给定最优控制策略u,最差扰动策略d 和(10)中的代价函数近似,贝尔曼方程用理想评价权值ωc表示为其中,φ是N维向量表示为
贝尔曼方程残差表示为
根据代价函数梯度近似(11)看出,代价函数梯度近似误差 构成了贝尔曼近似误差ξ,即:
*
最优代价函数V (δ)的最佳近似值由理想评价权值ωc决定,但是ωc是未知的,设 为ωc的估计值,评价网络的输出及其梯度表示为然后,对于一个给定的控制策略u,哈密尔顿量近似误差描述为定义评价网络的权重估计误差为 结合贝尔曼近似误差ξ与哈密尔顿近似误差ec,有 策略评估过程通过调整评价权值 来最小化下面平方误差函数:
为了使得当 时,ec→ξ,采用以下梯度下降算法作为评价网络的权值更新律其中,αc>0为评价网络的学习率;
注意到,上述更新律依赖持续激励条件,但是通常很难验证持续激励条件;为了放宽持续激励条件,采用了经验回放技术;所述经验回放技术的思想是基于存储或者重新编码的过去数据;收集过去时刻tk的数据φ(tk),其中,k=1,...,p,p是一个正常数;定义在时刻tk的近似误差为 那么,评价权值更新律变为其次,执行网络:
由于最优控制策略和最差扰动策略由最优代价函数梯度 决定,因此,考虑自适应评价网络权值 的代价函数梯度近似,那么最优控制策略和最差扰动策略表示为:为了保证李雅普诺夫意义上的稳定性,控制策略和扰动策略分别用如下执行网络和扰动网络来表示其中,ωu和ωd分别为未知理想执行网络和扰动网络的权值向量,σu和σd分别为执行网络和扰动网络的激活函数,εu和εd分别为执行网络和扰动网络的重构误差,设 和 分别为ωu和ωd的估计值,估计误差记为 和 由此,近似控制策略和扰动策略表示为 和
执行网络和扰动网络的学习规则由下面的误差信号决定ea=ua(δ)‑uc(δ),ed=da(δ)‑dc(δ).
执行网络和扰动网络的目标是使下列目标函数最小化利用梯度下降算法,得到执行网络和扰动网络的权值更新律为
4.根据权利要求3所述基于安全强化学习的高超声速飞行器零和博弈方法,其特征在于,所述步骤5中,采用了梯度下降法和经验回放技术来更新网络权值并对闭环系统中所有信号进行稳定性分析;
条件1:设Ξ=[φ(t1),φ(t2),...,φ(tp)]为记录的数据矩阵,则Ξ所包含的线性无关元素的个数与式(12)中基的维数相等,即,rank(Ξ)=l;
定理1:设u为任意给定的容许控制策略,控制策略由评价网络(14)和经验回放更新律(16)评估;那么,在条件1下,评价权值近似误差 是一致最终有界的;
假设3:激活函数σc,σu,σd,近似误差εc,εu,εd,理想权值ωc,ωu,ωd,近似误差梯度激活函数梯度 以及残差ξ是范数有界的:||σc||≤bσcm,||σu||≤bσum,||σd||≤bσdm,||εc||≤εcm,||εu||≤εum,||εd||≤εdm,||ωc||≤ωcm,||ωu||≤ωum,||ωd||≤ωdm, ||ξ||≤bξ.
定理2:考虑动力学系统(7),评价网络、执行网络、扰动网络的权值更新律分别由(16)、(21)、(22)表示,之后,系统状态δ和权值估计误差 是一致最终有界的。