买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于安全强化学习的高超声速飞行器最优控制方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于安全强化学习的高超声速飞行器最优控制方法

￥14000

专利号： 2022115830762

申请人：中国矿业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于安全强化学习的高超声速飞行器最优控制方法，包括，其特征在于，所述方法包括：步骤1：建立高超声速飞行器纵向动力学模型；高超声速飞行器纵向动力学模型为：其中，V，h，γ，α，Q分别表示飞行器的速度，高度，航迹角，攻角以及俯仰角速度，m为飞行器质量，Iyy为转动惯量，g为重力加速度，ζi为阻尼比，ωi为柔性模态频率，ηi为第i个弯曲模态的振幅，L，D，T，M，Ni分别表示升力，阻力，推力，俯仰力矩，广义弹性力，表达式为：其中， S，zT，为飞行动压，参考面积，推力力臂，平均空气动力弦长，并且(2)式中的参数拟合形式为其中，Φ，δe分别为燃料当量比，升降舵偏转角，皆为系统的输入，为升力系数，为阻力系数，为力矩

系数，为推力系数；

步骤2：将高超声速飞行器纵向动力学模型化简为仿射非线性系统模型，具体包括：将速度子系统化简为：其中，式中，ΔV表示速度子系统中气动系数的不确定性和外部干扰所引起的扰动，将高度子系统化简为：其中，

其中，Δγ，Δα，ΔQ表示高度子系统中气动系数的不确定性和外部干扰所引起的扰动；

速度子系统和高度子系统可以归纳为

其中，对于速度子系统，x＝xV＝V是速度子系统的状态，u＝Φ是速度子系统的控制输入，f(x)＝fV和g(x)＝gV是李普希兹连续函数；

T T

对于高度子系统，x＝[xh,xγ,xα,xQ]＝[h,γ ,α,Q]是高度子系统的状态；

u＝δe是高度子系统的控制输入；

T T

f(x)＝[fh(x),fγ(x),fα(x),fQ(x)]＝[Vγ ,fγ+gγα,fα+gαQ,fQ]和T T

g(x)＝[gh(x),gγ(x),gα(x),gQ(x)]＝[0,0,0,gQ]是李普希兹连续函数；

步骤3：基于障碍函数的系统变换，将全状态安全约束问题转化为无约束优化问题；所述将全状态安全约束问题转化为无约束优化问题具体包括：考虑系统(3)，找到控制策略u，对于每个x(0)，在状态约束xi∈(ai,bi),i＝V,h,γ ,α,Q下使得代价函数T

最小化，其中，ai<0，bi>0，U(x,u)＝Γ(x)+uRu，Γ(x)是正定函数，R是正定对称矩阵；

在此基础上，提出基于障碍函数的系统变换，将给出的具有非对称的全状态约束的安全控制问题转化为稳定性问题，具体包括以下步骤：问题1、具有全状态约束的安全控制问题：定义1：障碍函数：定义在(a,b)上的函数是障碍函数；如果有其中，a和b是满足a<0

根据定义1，下式成立

其中，

因此，变换后的变量z＝[z1,...,zn]所满足的动力学表示为T T

其中，F(z)＝[F1(z),...,Fn(z)] ,G(z)＝[0,...,0,gn(z)]；

假设1：系统(6)满足：

F(z)是李普希兹的，F(0)＝0，对z∈Ωz，存在常数fm使得||F(z)||≤fm||z||，其中，Ωz是包含原点的紧集；

G(z)在Ωz上是有界的，即存在常数gm使得||G(z)||≤gm；

在紧集Ωz上，系统(6)是可控的；

在前述中，引入障碍函数，将系统(3)转化为等价系统(6)，下面，我们引入一个新的问题，以解决问题1的全状态约束；

问题2、找到控制策略u使得代价函数：T T

最小化，其中r(z,u)＝Q(z)+uRu为奖励函数，Q(z)＝zQz,Q≥0.

给定一个可容许控制策略u，定义哈密尔顿量为：其中，是梯度向量；

然后，对代价函数V(z)求导得到贝尔曼方程为考虑最优代价函数，表示为

根据最优的必要条件

可得最优控制策略u为将最优控制策略代入到贝尔曼方程中，得到哈密尔顿‑雅可比‑贝尔曼方程假设2：对于可容许控制策略u，非线性李雅普诺夫方程(8)具有局部光滑解具有问题1和问题2等价的条件由以下引理给出：引理1：若假设1和假设2成立，并且控制策略解决系统(6)的问题2，则有以下结论成立：

1)只要系统(3)的初始状态x0∈(ai,bi),i＝V,h,γ ,α,Q，闭环系统(3)就满足安全区域；

2)若函数Γ(x)和Q(z)满足Γ(x)＝Q(z)，代价函数(4)和(7)等价；

步骤4：采用安全强化学习算法在执行‑评价框架下设计优化控制器；

步骤5：引入一种鲁棒项来补偿由执行‑评价框架引入的神经网络逼近误差，设计基于安全强化学习的鲁棒近似最优控制器并分析稳定性。

2.根据权利要求1所述的基于安全强化学习的高超声速飞行器最优控制方法，其特征在于，所述步骤4中，采用安全强化学习算法在执行‑评价框架下设计优化控制器，具体包括：通过应用评价网络和执行网络实现在线安全强化学习算法设计近似最优控制器；

首先，评价网络：

求解哈密尔顿‑雅可比‑贝尔曼方程的最初步骤是通过采用如下一个评价网络局部逼近最优代价函数：；

T N

其中，是理想的评价权值，φc(z)＝[φc1(z),φc2(z),...,φcN(z)]∈R 是激活函数，N是隐藏层的神经元数，εc(z)是评价网络逼近误差；

价值函数V(z)关于状态向量z的偏导数为：其中，

给定最优控制策略u (z)和(8)中的代价函数近似，贝尔曼方程可以用理想评价权值表示为其中，σ是N维向量表示为

贝尔曼方程残差可表示为

根据代价函数梯度近似(10)可以看出，贝尔曼近似误差εB是由代价函数梯度近似误差引起的，即:*

最优值函数V (z)的最佳近似值由理想评价权值决定，但是是未知的，设为的估计值，评价网络的输出及其梯度可表示为然后，对于一个给定的控制策略u，哈密尔顿量近似误差描述为定义评价网络的权重估计误差为结合贝尔曼近似误差εB与哈密尔顿近似误差ec，有给定可容许的控制策略u，可通过选取评价权值来制定策略评价，从而使下面平方误差函数最小：为了使得当时，ec→εB，采用以下梯度下降算法作为评价网络的权值更新律其中，αc>0为评价网络的学习率；

其次，执行网络：

由于最优控制策略由最优代价函数梯度决定，那么最优控制策略可由评价网络理想权值表示为：利用具有自适应评价网络权值的值梯度逼近方法，控制策略可以表示为为了保证李雅普诺夫意义上的稳定性，控制策略用如下执行网络来表示* N T N

其中，Wa∈R 是理想的执行网络权值，φa(z)＝[φa1(z),φa2(z),...,φaN(z)]∈R 是激活函数，εa(z)是执行网络逼近误差，设为的估计值，近似最优控制策略可表示为执行网络学习规则由下面的误差决定执行网络的目标是使下列目标函数最小化利用梯度下降算法，可以得到执行网络的权值更新律为定义执行网络的权值估计误差为代入到上式中可得稳定性分析：

假设3：以下结论在紧集Ωz上成立：未知的评价网络理想权值和执行网络理想权值有上界，即评价网络和执行网络的近似误差有上界，即||εc||≤εcm，||εa||≤εam；

评价网络和执行网络的激活函数有上界，即||φc(z)||≤φcm，||φa(z)||≤φam；

评价网络和执行网络的近似误差梯度和激活函数梯度有上界，即残差有上界，即||εB||≤εBm；

考虑系统(6)，控制输入(17)，评价网络和执行网络的权值更新律分别由(13)和(18)表示，选取执行网络初始权值，建立初始容许控制，之后，通过提出的在执行‑评价框架下的安全强化学习算法解决问题2使得存在集合状态z和权值估计误差和*

是一致最终有界的，此外，得到的近似最优控制输入u在范围δu内近似最优控制输入u ，* *即对于δu小于N1，当t→∞时，||u‑u||≤δu，其中δur小于δ1。

3.根据权利要求2所述的基于安全强化学习的高超声速飞行器最优控制方法，其特征在于，所述步骤5中，由于神经网络逼近误差εc和εa的存在，状态和权重估计误差和是一致最终有界的，而不是渐近收敛到闭环系统的平衡点，接下来，为了提高控制性能，在控制输入中增加一个鲁棒项，以减少神经网络逼近误差的影响，使闭环系统达到渐近稳定，引入如下鲁棒项其中，k1>0，并且k0满足

则整个控制输入为

uar＝ua‑ur； (37)将(37)应用到系统(6)中，那么可得到考虑系统(6)，控制输入(37)，评价网络和执行网络的权值更新律分别由(13)和(18)表示，选取执行网络初始权值，建立初始容许控制策略，之后，通过提出的在执行‑评价框架下的安全强化学习算法解决问题2，使得存在集合状态为的闭环系统的平衡点是渐近稳定的，此外，得到的鲁棒近似最优控制输入* *

uar在范围δur内近似最优控制输入u，即对于正常数δur，当t→∞时，||u‑uar||≤δur，其中，δur小于N2*，δur小于δ2。