利索能及
我要发布
收藏
专利号: 2021114498633
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种无人机辅助移动边缘计算的调度优化方法,其特征在于,包括:S1:构建移动边缘计算系统的卸载模型,所述模型包括一个无人机和若干个用户设备;

S2:根据移动边缘计算系统的卸载模型,获得计算任务的能耗;

S3:以用户设备的平均能耗最小化为目标,建立联合无人机轨迹和用户设备调度的优化问题;

S4:将所述优化问题转化为马尔科夫决策过程,定义移动边缘计算系统卸载模型的状态空间、动作空间和回报函数;

S5:基于SAC算法构建深度神经网络,利用状态空间、动作空间和回报函数对深度神经网络进行训练,获得训练好的深度神经网络;

构建的深度神经网络包括经验缓冲区、Actor网络、第一Critic网络、第二Critic网络、第一Critic目标网络和第二Critic目标网络;

在每个时隙中,Actor网络的输入为当前状态s(t),输出相应的当前动作a(t),得到当前调度策略πφ;第一Critic网络和第二Critic网络的输入均为当前状态s(t)和当前动作a(t),分别输出Q值;无人机执行当前动作a(t)后,生成新状态s(t+1),并获得当前回报r(t),将[s(t),a(t),r(t),s(t+1)]储存在经验缓冲区中;第一Critic目标网络和第二Critic目标网络分别作为第一Critic网络、第二Critic网络的副本,设置目标函数,选择两个Q值中较小的Q值来计算目标值,用于更新第一Critic网络、第二Critic网络的网络参数;该时隙结束时根据当前调度策略对Actor网络和Critic网络的网络参数进行实时更新,从经验缓冲区中随机采样对Critic目标网络的网络参数进行更新;

S6:利用训练好的深度神经网络进行调度优化,获得最优调度策略,即无人机飞行轨迹和用户设备的选择策略。

2.根据权利要求1所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S1中,构建的移动边缘计算系统的卸载模型具体为:移动边缘计算系统的卸载模型包括单个无人机和N个用户设备,无人机最多同时服务K个用户设备,每个用户设备选择将计算任务由本地计算或者卸载至无人机计算;设定无人机的飞行区域的长度和宽度分别为Xmax和Ymax,无人机在固定高度h以v(t)恒定速度飞行,天线发射角度为θ,飞行最大速度为vmax;无人机的飞行时间为T个时隙,每个时隙长度为τ,在任意时刻完成计算任务的时间不能超过最大时延Tmax;

将无人机的坐标表示为[X(t),Y(t),h],用户设备的坐标表示为[xi(t),yi(t),0],i∈h{1,2,…,N};设定无人机在t时刻的飞行距离和水平方向角度分别为d(t)和θ (t),则X(t)h h=X(t‑1)+d(t)cos(θ (t)),Y(t)=Y(t‑1)+d(t)sin(θ (t));无人机的最大覆盖范围为Rmax=h·tan(θ),飞行速度为定义t时刻的计算任务为:

Ii(t)={Di(t),Fi(t)}

式中,Di(t)表示选择卸载计算t时刻的计算任务时的数据传输量,Fi(t)表示完成t时刻的计算任务所需的计算能力;

定义αi(t)∈{0,1}表示用户设备的选择策略,αi(t)=0时表示t时刻的计算任务本地计算,αi(t)=1时表示t时刻的计算任务卸载计算。

3.根据权利要求2所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S2中,根据移动边缘计算系统的卸载模型,获得计算任务所消耗的能量包括:用户设备选择卸载计算,即αi(t)=1;此时该用户设备与无人机的水平面上的距离为:则卸载计算时上行链路速率为:

Tr

式中,B表示通信信道的平均带宽,P 表示用户设备数据卸载的传输功率,ρ表示传输功率系数;

用户设备传输计算任务的时间开销为:

无人机处理计算任务的时间开销为:

U

式中,f(t)表示无人机的计算能力;

则用户设备选择卸载计算的总时间开销为:

用户设备选择卸载计算的能耗为:

式中, 表示第i个用户设备选择卸载计算的能耗。

4.根据权利要求3所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S2中,根据移动边缘计算系统的卸载模型,获得计算任务所消耗的能量还包括:用户设备选择本地计算,即αi(t)=0;

用户设备处理计算任务的时间开销为:

式中, 表示用户设备的计算能力;

将用户设备的功耗设定为 则用户设备选择本地计算的能耗为:

式中,ki为第一常数,vi为第二常数。

5.根据权利要求4所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S3中,以用户设备的平均能耗最小化为目标,建立联合无人机轨迹和用户设备调度的优化问题,具体为:定义飞行动作 集合 用户设备 调度策略集合

则优化问题P表示为:

其中,Ei(t)表示用户设备的能耗,当αi(t)=1时, 当αi(t)=0时,表示约束无人机最多同时服务K个用户设备,αi(t)Si(t)≤Rmax表示约束选择卸载计算的用户设备在无人机的最大覆盖范围中。

6.根据权利要求5所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S4中,设计的移动边缘计算系统卸载模型的状态空间和动作空间具体为:在移动边缘计算系统的卸载模型中,无人机与用户设备相当于一个智能体,在每个时隙,智能体从环境中观测获得当前状态s(t),当前状态s(t)对应当前动作a(t),无人机执行动作空间中的当前动作a(t),与环境进行交互,环境返还当前回报r(t)和新状态s(t+1);

对于状态空间,在每个时隙中,用户设备的位置是固定的,只需考虑无人机的位置信息;以及每个飞行周期结束,无人机都需到达特定目的地,设定无人机与特定目的地的距离′为d(t),则状态空间中,当前状态表达式为s(t)={X(t),Y(t),h,d′(t)};

h

对于动作空间,根据无人机飞行距离d(t)和水平方向角度θ (t),计算无人机下一时刻的位置坐标[X(t+1),Y(t+1),h],以及用户设备的选择策略,则动作空间中,当前动作表达h式为a(t)={θ(t),d(t),αi(t)}。

7.根据权利要求6所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S4中,设计的移动边缘计算系统的卸载模型的回报函数具体为:回报函数用于评估智能体在当前状态下采取的动作的好坏,具体为:r(t)=Rerengy+Rdes+Pout+Pspeed式中,r(t)表示当前回报,Rerengy表示优化问题的回报,Rdes表示无人机飞回特定目的地′的回报,Rdes=k/d (t),k为奖励因子;Pout表示无人机飞出飞行区域的惩罚,Pspeed表示无人机飞行超速的惩罚。

8.根据权利要求7所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,所述步骤S5中,Actor网络的损失函数为:第一Critic网络和第二Critic网络的损失函数为:

第一Critic目标网络和第二Critic目标网络的目标函数为:式中,φ表示Actor网络的网络参数,θi表示第i个Critic网络的网络参数, 表示第i个Critic网络的Q值;i=1时,θ1表示第一Critic网络的网络参数, 表示第一Critic网络的Q值;i=2时,θ2表示第二Critic网络的网络参数, 表示第二Critic网络的Q值; 表示根据当前调度策略πφ计算获得的新动作;表示目标值,α表示熵正则化系; 表示第i个Critic目标网络的Q值,i=1时, 表示第一Critic目标网络的Q值, 表示第二Critic目标网络的Q值。

9.根据权利要求8所述的无人机辅助移动边缘计算的调度优化方法,其特征在于,构建的深度神经网络的最优调度策略表达式为:式中,π*表示最优调度策略,α表示熵正则化系数,πφ表示调度策略,γ表示折扣因子;H表示熵,计算方法为:H(πφ(·∣s(t)))=E[‑logπφ(·∣s(t))]。

10.一种无人机辅助移动边缘计算的调度优化系统,其特征在于,包括:模型构建模块,用于构建移动边缘计算系统的卸载模型,所述模型包括一个无人机和若干个用户设备;

能耗计算模块,根据移动边缘计算系统的卸载模型,获得计算任务的能耗;

优化问题建立模块,用于以用户设备的平均能耗最小化为目标,建立联合无人机轨迹和用户设备调度的优化问题;

优化问题转化模块,用于将所述优化问题转化为马尔科夫决策过程,定义移动边缘计算系统卸载模型的状态空间、动作空间和回报函数;

网络构建训练模块,基于SAC算法构建深度神经网络,利用状态空间、动作空间和回报函数对深度神经网络进行训练,获得训练好的深度神经网络;

构建的深度神经网络包括经验缓冲区、Actor网络、第一Critic网络、第二Critic网络、第一Critic目标网络和第二Critic目标网络;

在每个时隙中,Actor网络的输入为当前状态s(t),输出相应的当前动作a(t),得到当前调度策略πφ;第一Critic网络和第二Critic网络的输入均为当前状态s(t)和当前动作a(t),分别输出Q值;无人机执行当前动作a(t)后,生成新状态s(t+1),并获得当前回报r(t),将[s(t),a(t),r(t),s(t+1)]储存在经验缓冲区中;第一Critic目标网络和第二Critic目标网络分别作为第一Critic网络、第二Critic网络的副本,设置目标函数,选择两个Q值中较小的Q值来计算目标值,用于更新第一Critic网络、第二Critic网络的网络参数;该时隙结束时根据当前调度策略对Actor网络和Critic网络的网络参数进行实时更新,从经验缓冲区中随机采样对Critic目标网络的网络参数进行更新;

调度优化模块,利用训练好的深度神经网络进行调度优化,获得最优调度策略,即无人机飞行轨迹和用户设备的选择策略。