买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种临近空间通信网络中继无人机智能轨迹规划方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种临近空间通信网络中继无人机智能轨迹规划方法

￥31200

专利号： 2025106182143

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种临近空间通信网络中继无人机智能轨迹规划方法，其特征在于，包括以下步骤：步骤1、设计通信网络拓扑图的生成方法：首先构造称为全连接图的有向图，其中节点包括通信网络中的所有节点，节点包括1个空基基站、M架中继无人机和N名地面用户；添加从基站节点到各中继无人机、各中继无人机之间，以及从各中继无人机到各地面用户之间的有向边E，其中各中继无人机之间的边有两个方向；

步骤2、将平流层飞艇的轨迹规划过程转换为序贯决策过程，构建多智能体马尔科夫决策过程模型，用于描述中继无人机轨迹规划任务；将时间连续的规划过程离散化，在每一时间片内，各智能体依次观测环境状态、进行决策、收到奖励；多智能体马尔科夫决策过程开始时，各中继无人机从长为A、宽为C的尺寸为的矩形平面区域中的任意位置出发，定高飞行；如果任意一架中继无人机飞出边界，或者时间片总数到达上限时，多智能体马尔科夫决策过程终止；根据任务需求，设计状态空间、动作空间，以及关于相邻两时间片状态和的奖励函数，作为优化目标；

步骤3、设计策略网络和价值网络，策略网络和价值网络结构相同，均包括图注意力网络、门控循环单元网络和多层感知机；其中策略网络的作用是根据输入状态，输出相应策略；价值网络的作用是根据输入的状态和动作组合，输出状态和动作组合的动作价值函数值，对当前状态下执行输出动作的奖励效果进行评判；构建中继无人机轨迹规划虚拟仿真环境，实现通信网络拓扑图生成、空基基站和地面用户的随机运动、多智能体与环境的交互和状态转移；

步骤4、在步骤3的虚拟仿真环境中，基于软性演员评论家算法训练智能体寻找最优策略，采用分布式训练、分布式执行的多智能体强化学习架构，每个智能体均包括独立的Actor网络和Critic网络，其中Actor代表演员，Critic代表评论家；训练和执行过程在每个智能体内部进行；

步骤3包括：

步骤3‑1，读取空基基站、中继无人机、地面用户的位置信息，生成通信网络拓扑图与中继无人机飞行状态，拼接成当前t时刻状态；

步骤3‑2，将通信网络拓扑图输入策略网络的图注意力网络，通过消息传递和聚合，提取新的图节点特征；

步骤3‑3，遍历所有智能体，对于每个智能体，将提取后的图节点特征整理成一维向量，与中继无人机飞行状态拼接后，通过门控循环单元网络和全连接层后，输出以高斯分布的均值和标准差的形式表达的决策动作，由均值和标准差采样得到各智能体对应的决策动作；

步骤3‑4，将决策动作作用于对应的中继无人机，使中继无人机自身状态转移；更新下一时刻各节点位置信息，生成新的通信网络拓扑图，拼接成下一时刻状态，根据奖励函数计算各智能体获得的奖励。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：步骤1‑1，遍历所有地面用户，对于各个地面用户，利用深度优先搜索算法搜索从空基基站经由中继无人机到地面用户n的条多跳通信链路，并将其中第条多跳通信链路抽象为仅有单一源和单一汇的有向无环图，v和e分别代表具体的节点和边，；

包含的节点的个数和边的个数分别为和；

步骤1‑2，遍历地面用户n的所有多跳通信链路，将各多跳通信链路中从第i个节点到第j个节点的链路抽象为边，边的特征为对应链路容量，第i个节点的特征包括汇入的边的容量和流出的边的容量，即；

按照视距传输模型，根据如下公式计算信道容量：

，

其中表示信道带宽，表示从第k个节点到第j个节点的信道增益，是计算公式中的中间参数，表示第k个节点的空间坐标，表示第k个节点的发射功率；

当时，对应的为接收端的信号功率，表示高斯白噪声的方差；

当时，对应的代表因同频干扰导致的噪声功率；

令从空基基站到地面用户的第条多跳通信链路的容量等于其中各链路的最小值，表示为：，

选定其中容量最大的多跳通信链路为实际采用的多跳通信链路：，

其中指返回对应的；

对各个地面用户实际采用的多跳通信链路进行取并，令，得到实际链路连接图；的节点特征和边特征由对应的节点特征和边特征拼接而成；

步骤1‑3，对地面用户的各多跳通信链路图取并，构成地面用户n所有的多跳通信链路图，令，的节点特征和边特征为对应的节点特征的均值和边特征的均值：

，

；

步骤1‑4，对所有地面用户的取并，构成通信网络拓扑图，；

的节点特征和边特征由对应的节点特征和边特征拼接而成：，

，

其中表示第n个地面用户的第i个节点特征；表示第n个地面用户的由i到j这条边的边特征；

步骤1‑5，如果将作为神经网络的输入，先进行如下预处理：将的节点和边按照有向图补齐，并将数值0填充到节点特征和边特征的对应位置。

3.根据权利要求2所述的方法，其特征在于，步骤2包括：状态空间分为两部分：，其中是图状态，是中继无人机状态，通信网络拓扑图包含节点特征、边特征和邻接矩阵。

4.根据权利要求3所述的方法，其特征在于，步骤2还包括：一维数组结构的所有中继无人机状态为：，

其中表示当前时间，、分别表示第m台中继无人机的位置横坐标和纵坐标，、分别表示第m台中继无人机的x方向速度和y方向速度，表示第m台中继无人机的推进功耗。

5.根据权利要求4所述的方法，其特征在于，步骤2还包括：智能体的观测空间等于状态空间，动作空间，其中分别表示第m台中继无人机速度增量的模和方向角；

奖励函数；

其中为全局奖励，为局部奖励：

，

其中，为全局最小容量奖励项，为正值，与各地面用户采用最优链路时的容量的最小值成正比：，；

为全局总容量奖励项，为正值，与所有地面用户在实际链路中的容量的和成正比：，；

为本地平均容量奖励项，为正值，公式为：，

；

为无人机推进功耗奖励项，为负值，公式为：，；

为场地边界奖励项。

6.根据权利要求5所述的方法，其特征在于，步骤4包括：步骤4‑1，智能体神经网络参数初始化；

步骤4‑2，在每一轮智能体训练开始前，首先读取空基基站、中继无人机、地面用户的位置信息，生成通信网络拓扑图，并随机初始化各中继无人机飞行状态，拼接成初始状态；

步骤4‑3，在每一轮训练的每一时间步中，遍历所有智能体，各智能体做出对应的决策动作，与环境交互后更新各节点位置和飞行状态，生成新的通信网络拓扑图，当前状态转移到下一时刻状态，并获得奖励；当任意中继无人机穿过边界，或累计时间步数到达预设上限时，多智能体马尔科夫决策过程终止；将交互数据组存入回放区中，表示当前状态，表示决策动作，是第m个智能体的决策动作，是奖励，是下一时刻的状态；

步骤4‑4、从回放区中随机读取交互数据，遍历所有智能体，对于每个智能体，根据软性演员评论家算法的神经网络更新规则，计算各智能体的演员评论家算法神经网络的损失函数，以梯度下降的方式对神经网络反向传播更新网络参数。

7.根据权利要求6所述的方法，其特征在于，4‑4包括：软性演员评论家算法通过对损失函数梯度下降的方法对Critic网络进行优化，通过对损失函数梯度下降的方法对Actor网络进行优化，和的计算公式为：，

，

其中，表示第t步获得的奖励；表示折扣因子，取值在0 1之间；是目标~价值函数，采用离线策略的动作价值函数学习模式，所述学习模式下存在结构相同的动作价值函数和目标动作价值函数，的输出值用于动作价值函数的更新，的输出值用于评估在状态下做出动作后的期望奖励，通过以下公式利用的内部参数更新的内部参数：，

其中更新率为常数；

为动作价值函数，用以评估在状态下做出动作后的期望奖励；项表示策略熵。

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。

9.一种存储介质，其特征在于，存储有计算机程序或指令，当所述计算机程序或指令在计算机上运行时，执行如权利要求1至7中任一项所述的方法的步骤。