利索能及
我要发布
收藏
专利号: 2025106182143
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种临近空间通信网络中继无人机智能轨迹规划方法,其特征在于,包括以下步骤:步骤1、设计通信网络拓扑图的生成方法:首先构造称为全连接图的有向图 ,其中节点 包括通信网络中的所有节点,节点 包括1个空基基站、M架中继无人机和N名地面用户;添加从基站节点到各中继无人机、各中继无人机之间,以及从各中继无人机到各地面用户之间的有向边E,其中各中继无人机之间的边有两个方向;

步骤2、将平流层飞艇的轨迹规划过程转换为序贯决策过程,构建多智能体马尔科夫决策过程模型,用于描述中继无人机轨迹规划任务;将时间连续的规划过程离散化,在每一时间片内,各智能体依次观测环境状态、进行决策、收到奖励;多智能体马尔科夫决策过程开始时,各中继无人机从长为A、宽为C的尺寸为 的矩形平面区域中的任意位置出发,定高飞行;如果任意一架中继无人机飞出边界,或者时间片总数到达上限时,多智能体马尔科夫决策过程终止;根据任务需求,设计状态空间、动作空间,以及关于相邻两时间片状态和 的奖励函数,作为优化目标;

步骤3、设计策略网络和价值网络,策略网络和价值网络结构相同,均包括图注意力网络、门控循环单元网络和多层感知机;其中策略网络的作用是根据输入状态,输出相应策略;价值网络的作用是根据输入的状态和动作组合,输出状态和动作组合的动作价值函数值,对当前状态下执行输出动作的奖励效果进行评判;构建中继无人机轨迹规划虚拟仿真环境,实现通信网络拓扑图生成、空基基站和地面用户的随机运动、多智能体与环境的交互和状态转移;

步骤4、在步骤3的虚拟仿真环境中,基于软性演员评论家算法训练智能体寻找最优策略,采用分布式训练、分布式执行的多智能体强化学习架构,每个智能体均包括独立的Actor网络和Critic网络,其中Actor代表演员,Critic代表评论家;训练和执行过程在每个智能体内部进行;

步骤3包括:

步骤3‑1,读取空基基站、中继无人机、地面用户的位置信息,生成通信网络拓扑图 与中继无人机飞行状态 ,拼接成当前t时刻状态 ;

步骤3‑2,将通信网络拓扑图 输入策略网络的图注意力网络,通过消息传递和聚合,提取新的图节点特征;

步骤3‑3,遍历所有智能体,对于每个智能体,将提取后的图节点特征整理成一维向量,与中继无人机飞行状态拼接后,通过门控循环单元网络和全连接层后,输出以高斯分布的均值和标准差的形式表达的决策动作,由均值和标准差采样得到各智能体对应的决策动作;

步骤3‑4,将决策动作 作用于对应的中继无人机,使中继无人机自身状态转移;更新下一时刻各节点位置信息,生成新的通信网络拓扑图,拼接成下一时刻状态 ,根据奖励函数计算各智能体获得的奖励 。

2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1‑1,遍历所有地面用户,对于各个地面用户,利用深度优先搜索算法搜索从空基基站经由中继无人机到地面用户n的 条多跳通信链路,并将其中第 条多跳通信链路抽象为仅有单一源和单一汇的有向无环图 ,v和e分别代表具体的节点和边, ;

包含的节点的个数和边的个数分别为 和 ;

步骤1‑2,遍历地面用户n的所有多跳通信链路,将各多跳通信链路中从第i个节点 到第j个节点 的链路抽象为边 ,边 的特征为对应链路容量 ,第i个节点的特征 包括汇入 的边的容量 和流出 的边的容量 ,即 ;

按照视距传输模型,根据如下公式计算信道容量:

其中 表示信道带宽, 表示从第k个节点 到第j个节点 的信道增益, 是计算公式中的中间参数, 表示第k个节点 的空间坐标, 表示第k个节点 的发射功率;

当 时,对应的 为接收端的信号功率, 表示高斯白噪声的方差;

当 时,对应的 代表因同频干扰导致的噪声功率;

令从空基基站到地面用户 的第 条多跳通信链路的容量 等于其中各链路的最小值,表示为:,

选定其中容量最大的多跳通信链路 为实际采用的多跳通信链路:,

其中 指返回对应的 ;

对各个地面用户实际采用的多跳通信链路进行取并,令 ,得到实际链路连接图; 的节点特征和边特征由 对应的节点特征和边特征拼接而成;

步骤1‑3,对地面用户 的各多跳通信链路图取并,构成地面用户n所有的多跳通信链路图 ,令 , 的节点特征 和边特征 为 对应的节点特征 的均值和边特征 的均值:

步骤1‑4,对所有地面用户的 取并,构成通信网络拓扑图 , ;

的节点特征 和边特征 由 对应的节点特征和边特征拼接而成:,

其中 表示第n个地面用户的第i个节点特征; 表示第n个地面用户的由i到j这条边的边特征;

步骤1‑5,如果将 作为神经网络的输入,先进行如下预处理:将 的节点和边按照有向图 补齐,并将数值0填充到节点特征和边特征的对应位置。

3.根据权利要求2所述的方法,其特征在于,步骤2包括:状态空间 分为两部分:,其中 是图状态, 是中继无人机状态,通信网络拓扑图 包含节点特征、边特征和邻接矩阵。

4.根据权利要求3所述的方法,其特征在于,步骤2还包括:一维数组结构的所有中继无人机状态为: ,

其中 表示当前时间, 、 分别表示第m台中继无人机的位置横坐标和纵坐标, 、分别表示第m台中继无人机的x方向速度和y方向速度, 表示第m台中继无人机的推进功耗。

5.根据权利要求4所述的方法,其特征在于,步骤2还包括:智能体的观测空间等于状态空间,动作空间 ,其中 分别表示第m台中继无人机速度增量的模和方向角;

奖励函数 ;

其中 为全局奖励, 为局部奖励:

 ,

其中, 为全局最小容量奖励项,为正值,与各地面用户采用最优链路 时的容量 的最小值成正比: , ;

为全局总容量奖励项,为正值,与所有地面用户在实际链路 中的容量的和成正比: , ;

为本地平均容量奖励项,为正值,公式为: ,

为无人机推进功耗奖励项,为负值,公式为: , ;

为场地边界奖励项。

6.根据权利要求5所述的方法,其特征在于,步骤4包括:步骤4‑1,智能体神经网络参数初始化;

步骤4‑2,在每一轮智能体训练开始前,首先读取空基基站、中继无人机、地面用户的位置信息,生成通信网络拓扑图 ,并随机初始化各中继无人机飞行状态 ,拼接成初始状态 ;

步骤4‑3,在每一轮训练的每一时间步中,遍历所有智能体,各智能体做出对应的决策动作 ,与环境交互后更新各节点位置和飞行状态,生成新的通信网络拓扑图 ,当前状态 转移到下一时刻状态 ,并获得奖励 ;当任意中继无人机穿过边界,或累计时间步数到达预设上限时,多智能体马尔科夫决策过程终止;将交互数据组 存入回放区中, 表示当前状态, 表示决策动作, 是第m个智能体的决策动作, 是奖励,是下一时刻的状态;

步骤4‑4、从回放区中随机读取交互数据,遍历所有智能体,对于每个智能体,根据软性演员评论家算法的神经网络更新规则,计算各智能体的演员评论家算法神经网络的损失函数,以梯度下降的方式对神经网络反向传播更新网络参数。

7.根据权利要求6所述的方法,其特征在于,4‑4包括:软性演员评论家算法通过对损失函数 梯度下降的方法对Critic网络进行优化,通过对损失函数 梯度下降的方法对Actor网络进行优化, 和 的计算公式为:,

其中,表示第t步获得的奖励;表示折扣因子,取值在0 1之间; 是目标~价值函数,采用离线策略的动作价值函数学习模式,所述学习模式下存在结构相同的动作价值函数 和目标动作价值函数 , 的输出值用于动作价值函数的更新, 的输出值用于评估在状态下做出动作后的期望奖励,通过以下公式利用 的内部参数 更新 的内部参数 : ,

其中更新率 为常数;

为动作价值函数,用以评估在状态 下做出动作 后的期望奖励; 项表示策略熵。

8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述的方法的步骤。

9.一种存储介质,其特征在于,存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,执行如权利要求1至7中任一项所述的方法的步骤。