利索能及
我要发布
收藏
专利号: 2024106864453
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-08
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种无人机编队协调控制方法,其特征在于,包括以下步骤:(1)根据运动学和动力学原理建立单一无人机的飞行模型;

(2)构建虚拟领航法无人机集群编队相对运动模型;

(3)根据无人机的动力学模型和编队运动模型设计滑模控制器对无人机进行控制;

(4)设计马尔科夫决策过程,设计滑模控制器的状态空间,动作空间和奖励函数;

(5)构建多智能体的表演家‑评论家网络结构;

(6)运用多智能体强化学习算法对所述多智能体的表演家‑评论家网络结构进行集中式训练和分布式执行策略;

(7)当完成训练的目标后,保存训练好的深度强化学习智能体,并使用智能体对无人机对应飞控进行控制来完成编队。

2.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(1)具体如下:利用三自由度模型描述空间中的无人机运动学模型:;

其中,下标 表示编队中第架无人机, 为设定无人机的编队数量; 表示无人机的速度, 表示无人机的航迹角, 表示无人机的偏航角;

其中, 分别是切向过载和法向过载,g是重力加速度; 表示无人机的加速度, 表示无人机的航迹角的角加速度, 表示无人机的偏航角的角加速度。

3.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(2)具体如下:首先设第i架无人机的位置为: ,记为 ,第i架无人机的速度为: 记为,状态转移矩阵为 ,定义推力向量和空气动力学矢量构成无人机的控制变量为 ,重力矢量为 ,控制变量构成如下 ;

无人机的状态方程如下:

;引入虚拟领航者,其位置、速度分别为 、 ;设 为第i架无人机和第j架无人机之间的相对距离, 为虚拟长机与第i架无人机之间的距离;编队的模型构建公式如下:。

4.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(3)具体如下:首先,定义第i架无人机的编队控制误差为:

其中, 表示无人机间的通信情况,当第i架无人机能收到来自第j架无人机的通信时其值为1,当第i架无人机无法接受来自第j架无人机间的通信信息时其值为0; 为第i架无人机与领航者飞机间的通信; 为第i架无人机的位置误差, 无人机的速度误差;

然后,设计滑模面为: ,其中, 是对角矩阵,

为非线性项; 为 的集合, 为 的集合,其中 ;

最后,设计滑模控制率 ,其中, 、 、 、

为正的增益矩阵, 为滑模面的符号函数, 是非线性项对速度误差的偏导数。

5.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(4)具体如下:将 、 个参数设计为动作空间作为智能体的输出,将误差 、 设计为状态空间作为智能体的输入;深度强化学习智能体的奖励函数为:;

其中, 为速度误差和位置误差的数值大小惩罚占总奖励的比重, 为控制率的数值大小惩罚占总奖励的比重, 为控制率过大时的惩罚占总奖励的比重, 为误差达标时获得的奖励占总奖励的比重; 为速度误差  和位置误差  的平方的负数作为惩罚,为控制率 平方的负数作为惩罚,表示最大控制率 ,当控制率大于最大控制率时,给予一个负的奖励 ,P为一个固定的正数; 表示奖励J,J为一个固定的正数,当 和 分别满足速度误差允许范围 和位置误差允许范围 时,给予正奖励;其中, 和 都为正数,具体数值视任务而定;R表示表示各项奖励之和即智能体获得的总奖励。

6.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(5)具体如下:包括集中式评论家网络和分布式的演员网络;其中,集中式评论家网络由嵌入层,变换器编码层和多层感知器MLP组成;分布式的演员网络由态势感知层、决策层和动作编码层组成;在评论家网络的编码层中加入transformer结构自注意力机制接收输入数据并解码输出成目标序列;在演员网络的决策层加入LSTM用于处理序列数据,并且其输出连接到后续的全连接层以生成动作。

7.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(6)具体如下:首选选用多智能体强化学习算法MADDPG,然后,使用当前的演员网络产生的动作和从目标网络得到的下一状态的动作估算目标Q值,其次,计算损失函数,通过梯度下降更新评价者网络,使用评价者网络的梯度信息更新演员网络。

8.根据权利要求1所述的一种无人机编队协调控制方法,其特征在于,步骤(7)具体如下:在训练达到预定效果后,导出深度强化学习智能体,将智能体与无人机飞行中枢连接,用智能体来对飞行中枢进行控制;在每个时间步,智能体从无人机系统中获取状态信息,智能体根据状态生成动作,并将动作返回给无人机系统执行。