1.一种基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,包括以下步骤:
1)搭建四旋翼任务环境;根据无人机旋转特性和平移特性建立四旋翼模型,设计任务要求为无人机从起始点起飞,悬停至目标点;根据任务要求和四旋翼模型搭建任务环境;
2)对四旋翼无人机任务环境进行完善,加入风切变和离散突风两种类型的风场模型;
3)根据任务环境中不同的姿态、轨迹控制要求来设置相应的动作空间和状态空间,制定环境规则和状态边界值;
4)得到训练任务环境的控制策略,需要依据维度裁剪机制来优化PPO算法;更改算法中的目标函数并提出额外损失;
5)在优化后的PPO算法中引入分布式奖励值信号;根据状态边界值设定惩罚项,通过对分层的奖惩函数给予相应的权值;
6)设计深度神经网络架构,强化学习算法的策略更新将作为神经网络的输入端;使用多层感知器(MLP)结构;
7)使用基于维度裁剪的PPO算法在风场环境下训练策略,通过神经网络输出四旋翼的控制策略;训练完毕后观察无人机的控制效果,验证强化学习算法训练的控制策略的抗干扰能力。
2.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤1)中,构建的四旋翼学模型为 设定任务要求为控制四旋翼从[0,0,0]的起始点起飞至[5,5,5]的目标点并稳定的悬停在目标点。
3.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤2),在四旋翼任务环境中加入风切变和离散突风两种风场模型,其中风切变的模型为 Vpw为产生的风切变风速值,Vw0为摩擦速度,由空气密度ρ和地面剪应力τ0决定,表达式为: k为Karman常数,H为四旋翼的飞行高度,一般取0.4,H0为粗糙度高度,一般取为0.05;离散突风的模型为 其中Vwm为突风的峰值,dm为突风尺度范围,x为离突风中心的距离。
4.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤3)中,偏航角不作限制,根据任务环境设置一个三维的动作空间和八维的状态空间;动作输入为四旋翼转子的转速,设置动作空间的大小为[0,500],位置的状态空间大小为[‑10,10],姿态角速度的状态空间大小设置为[‑4.5,4.5],滚转、俯仰角的状态空间大小设置为[‑45°,45°]。
5.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤4)中,将现有PPO算法中各个维度的重要性维度权重分别裁剪,更改为一个新的目标函数:
2
其中πθ(·|st)=N(μ,σI)为目标策略,μ=(μ0,μ1,…,μD‑1)是均值向量,D是动作维度,σ2
是方差,I是单位矩阵;当策略πθ被分解为策略维度时,πθ,d(·|st)~N(μd,σ),设at,d是at的第d个元素,则
6.根据权利要求5所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,加入一个额外的损失 最后的策略函数如下:其中αIS是权重因子,它通过自适应方式改变其价值:
7.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤5)中,设置了一个结合多种奖励策略的奖励函数来替代单一简单的奖励函数,奖励函数通过如下形式获得:
2 2 2
r2=‑γ*arctan(s)*(x+y+z)rnew=r1+r2+r3+r4+r5其中α,β和γ是三个误差系数来控制姿态和位置相对于奖惩函数的权重,s是四旋翼当前位置与目标位置间的直线距离;rt是四旋翼稳定状态下的奖励,取0.5,rp1和rp2分别代表姿态角和位置的边界惩罚,取‑1,目标误差取0.1。
8.根据权利要求1所述的基于维度裁剪的PPO算法的四旋翼姿态轨迹控制方法,其特征在于,步骤6)中的神经网络包括价值神经网络和策略神经网络,每个策略神经网络有四个子网络组成,使用多层感知器即MLP结构;在策略神经网络的结构中,每个策略子网络有两个隐藏层,每个隐藏层有64个tanh节点;价值神经网络具有相同的结构,其唯一输出是估计值函数。