利索能及
我要发布
收藏
专利号: 2022101005223
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于无人机集群的边缘网络自适应部署方法,其特征在于,具体包括以下步骤:

101、设立无人机集群I={i},地面用户集J={j},i、j分别表示无人机i和用户j,将无人机集群巡航时间离散为时隙,设立时隙变量k,构造无人机集群与用户状态向量sk、无人机集群动作向量ak、无人机集群动作收益函数rk,其中,sk,ak,rk均随时隙数k的增加发生相应的转移和变化,初始化时隙变量k=0;

102、在无人机集群控制智能体中,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块;

103、令k=k+1,如果无人机集群I在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据每架无人机i的有效覆盖范围及剩余可用计算资源,确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集 其中 为k时隙用户j卸载到无人机i的任务量,跳转到104;

104、根据 执行用户任务卸载,通过无人机集群动作收益模块获得相应的收益rk,通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1,将[sk,ak,rk,sk+1]存入经验样本存储池;

105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X,并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练,跳转到103;

106、算法结束;

所述步骤101中构造k时隙无人机集群与用户状态向量sk、无人机集群三维动作向量ak、无人机集群动作收益函数rk,分别如公式(1)、(2)、(3)所示:公式(1)中, 表示无人机i在时隙k的三维坐标位置, 表示用户j在时隙k的二维坐标位置;公式(2)中, 表示无人机i在k时隙的水平运动方向, 表示无人机i在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),表示用户j在k时隙能够进行任务卸载,否则, 如公式(4)所示, 表示k时隙用户j的平均单位任务时延,如公式(5)所示:

公式(4)中, 表示用户j与无人机i的连接状态,若用户j在k时隙将任务卸载到无人机i执行,则 否则 公式(5)中,Δt表示时隙大小,ξ表示时隙,ξ∈[1,k];

所述步骤103中确定每架无人机i的用户对象集Ji,从而获得无人机集群I的用户对象集{Ji},通过无人机集群机载资源分配与任务卸载调度模块,获得用户集J的任务卸载决策变量集 的方法如下:

1)将J中所有用户j放入集合V中,根据 对集合V降序排列;

2)如果 依次针对V中的每一个用户j,根据用户j可接入的无人机剩余可用计算资源 和用户j所需的计算资源,通过多属性排序法分配无人机i的计算资源 给用户j,令 把V中用户j移入无人机i的用户对象集Ji,并根据 降序排列,跳转到

2),否则,跳转到3);

3)对集合I中 的无人机,依次为Ji中的每个用户j分配最小单位计算资源并更新直到 得到用户j的计算资源分配集合 并根据用户j的任务卸载时延,计算用户j卸载到无人机i的任务量 最终得到用户集J的任务卸载决策变量集

2.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块,具体包括:π π′

无人机集群巡航动作发生模块包含主网络π(sk|θ)和目标网络π′(sk|θ ),通过将无人π π机集群与用户状态sk输入π(sk|θ),并将π(sk|θ)的输出导入无人机集群动作扰动模块,获得无人机集群三维动作向量ak;无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索;无人机集群动作评估模块包含主网络 和 以及目标网络 和 用于生成在无人机集群与用户状态sk下执行无人机

π π′

集群三维 动作ak的 动作评估值q ;其中 ,π(s k|θ ) ,π′(s k|θ ) ,均为神经网络,分别包π π′

含若干层隐藏层,每层隐藏层包含若干个神经元,θ,θ , 为相应神经网π′

络结构参数;目标网络π′(sk|θ)、目标网络 和 分别用于增强π

主网络π(sk|θ)、主网络 和 在训练过程的稳定性;

环境参数采集模块用于收集地面用户的二维坐标位置 用户的任务卸载请求、无人机集群的三维坐标位置 和无人机集群的剩余可用计算资源;无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略,获得任务卸载决策变量集 无人机集群动作收益模块用于在完成k时隙的卸载任务后,生成无人机集群I在k时隙的动作收益值rk;无人机集群I执行ak动作后,无人机集群与用户状态由sk转移到sk+1;经验样本存储池中增加k时隙经验样本[sk,ak,rk,sk+1];样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本,用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。

3.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤2)中根据多属性排序法分配无人机i的计算资源 给用户j的方法,具体包括:首先根据 对集合I中的无人机降序排列,再根据 对 相同的无人机降序排列,最后根据 对 与 均相同的无人机升序排列,选择排序中的第一个无人机i并分配计算资源 给用户j,其中, 为无人机i与用户j的距离,计算资源 的计算方式如公式(6)、(7)所示:公式(6)中Fi表示无人机i的计算资源总量,ρ表示无人机i的用户对象集Ji中除用户j之外的其他用户,ρ∈(Ji‑j);公式(7)中U表示任务单元大小,τj表示用户j的平均单位任务容忍时延, 表示用户j的任务复杂度, 表示k时隙用户j到无人机i上行传输速率,η表示时隙,η∈[1,k‑1]。

4.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j卸载到无人机i的任务量 的计算方法如公式(8)所示:

5.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤3)中用户j的任务卸载时延如公式(9)所示:公式(9)中, 表示k时隙用户j卸载到无人机i的任务卸载时延, 表示k时隙用户j卸载任务到无人机i的传输时延,如公式(10)所示; 表示用户j卸载任务到无人机i的卸载任务计算时延,如公式(11)所示;

公式(10)中, 表示k时隙用户j到无人机i的上行传输速率,如公式(12)所示:2

公式(12)中,W为用户信道带宽,pj为用户发射功率,σ为噪声功率, 表示k时隙用户j到无人机i的通信信道增益。

6.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量ak,根据k时隙无人机集群与用户状态向量sk和无人机集群三维动作向量ak计算获得sk+1具体包括:将k时隙无人机集群与用户状态向量 输入无人机集群

巡航动作发生模块,并经由无人机集群动作扰动模块得到无人机集群三维动作向量计算获得 其中,L为k时隙无人机i的水

平移动距离。

7.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法,其特征在于,所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为:对无人机集群动作评估模块中的主网络 其网络参数 采用

最速下降法进行更新,如公式(13)所示,其中, 表示 和

其中 为 的学习率,损失函数 如公式(14)所示:

其中,a′k+1=ak+1+ε,ε~clip(N(0,σ),‑κ,κ),clip(·)表示修剪函数,N表示均值为0,方差为σ的高斯噪声,κ表示修剪参数,γ表示折扣因子,X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X={xk},xk=[sk,ak,rk,sk+1];

π π

巡航动作发生模块中π(sk|θ)网络参数θ更新如公式(15)所示:π π π

其中μ为π(sk|θ)的学习率,π(sk|θ)的策略梯度 如公式(16)所示:π′ π′

目标网络 和π′(sk|θ )中网络参数 和θ 的更新分别如公式(17)、(18)所示,其中, 表示 和 更新因子