1.一种基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述多无人机空中充电和任务调度方法包括以下步骤:S1,根据第三方收集的数据,得到环境中各个用户和基站的位置,构建多无人机群辅助边缘计算模型;
S2,初始化无人机群的部署位置,预设每个无人机的计算资源;
S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型;每个用户设备的计算任务有三种不同的卸载方式:本地计算、近端卸载和远端卸载;本地计算是指计算任务在用户设备上执行;近端卸载是指用户设备将计算任务卸载到其最近无人机节点;
远端卸载是指用户设备将计算任务先卸载到最近的无人机节点,以此无人机作为中继站,帮助用户把任务传输给其他无人机进行计算;当无人机电量不足时,此无人机会中止计算服务,将全部任务传给其他无人机后专心吸收太阳能和能量波来充电,同时充当任务中继站;
S4,基于步骤S3的优化模型,以无人机群能耗最小为优化目标,采用DDQN算法求解用户设备的卸载决策;
S5,基于无人机的当前位置和S4得到的卸载决策,采用差分进化算法求解无人机的计算资源分配策略;
S6,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化;
S7,循环执行步骤S4至步骤S6,直到相邻两次迭代下整个系统的能量消耗值的绝对值小于预设阈值,或者达到最大预设迭代次数时,迭代结束,获得无人机的部署策略、无人机的计算资源最优分配策略,以及用户设备的最优卸载决策;
步骤S4中,采用DDQN算法求解用户设备的卸载决策的过程包括以下步骤:S41,建模深度强化学习模型,模型参数包括:迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、网络结构Q、用于表示马尔可夫决策过程的批量梯度下降的样本数m、状态S、动作A、执行完A后的奖励函数R和执行完A后的下一状态S′;
S42,初始化S为当前状态序列的第一个状态,获取其特征向量φ(S);
S43,在Q网络中使用φ(S)作为输入,得到Q网络的所有动作对应的Q值输出;用∈‑贪婪法在当前Q值输出中选择对应的动作A;
S44,在状态S执行当前动作A,得到新状态S′对应的特征向量φ(S′)和奖励R;
S45,将{φ(S),A,R,φ(S′),end}这个五元组存入经验回放集合D;
S46,令S=S′;
S47,从经验回放集合D中采样m个样本{φ(Sj),Aj,Rj,φ(S′j),endj},j=1,2…,m,计算当前目标Q值yj:
S48,使用均方差损失函数 通过神经网络的梯度反向传播来更新Q网络的所有参数w;
S49,如果S′是终止状态,当前轮迭代完毕,否则转到S43;
S410,迭代执行S42至S49,直到满足预设终止条件时为止,输出基于当前无人机部署和资源分配的最优卸载决策。
2.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S2中,根据区域范围内的用户密度,初始化无人机群的部署位置。
3.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,S3,构建多无人机位置部署、用户设备卸载决策和计算资源分配的优化模型的过程包括以下步骤:
S31,设环境中的用户设备总数量为M,m是指第m个用户设备, 无人机总数量为N,第n架无人机的编号为n,
构造三维坐标欧几里得坐标系模型,其中用户设备i的位置为(xi,yi,0),i∈M,无人机j的位置为(Xj,Yj,H),j∈N,无人机固定高度为H;每个用户设备都有一个要执行的任务Ui,其中Ci表示完成Ui的CPU周期总数,Di表示用户设备输入数据的大小,表示计算任务Ui的最大时延;
每个无人机均配备两个通信模块;其中一个通信模块包括半功率波束宽度仰角为2θ∈(0,π)的定向天线,用于与用户设备传输通信,另一个通信模块包括全向天线,用于与其他无人机传输通信;
S32,设Ni表示用户i的近端无人机边缘节点集,N′i表示远端无人机边缘节点集i∈M;它产生以下约束:
设U0表示处于充电过程中的无人机集合,U1表示处于正常工作状态中的无人机集合,用户设备i的近端无人机边缘节点集Ui和远端无人机边缘节点集U′i表示为:Ni∪U1=Ui,N′i∪U1=U′i它产生以下约束:
设无人机j覆盖的用户设备集合为Mj,未覆盖的用户设备集合为M′j,每个无人机同时执行的最大任务数为nmax,产生以下约束:S33,设ai,j,k表示用户的卸载决策;其中,ai,0,0=1表示用户i的任务自己执行,否则为0;
ai,j,0=1表示用户i的任务卸载到近端无人机边缘节点j,否则为0;ai,j,k=1表示用户i的任务通过近端无人机边缘节点j的中继卸载到远端无人机边缘节点k,否则为0;同时用户的计算任务只能在一个设备上执行,不能多设备执行同一个任务;计算任务卸载决策有以下限制:
S34,无人机j到无人机k的传输数据速率为:uav
其中B 为信道带宽, 为无人机j的发射功率, 为参考距离1m处的信道功率增益, 为无人机k与无人机j之间的距离平方,N0为噪声功率谱密度;
用户i到无人机j的上传数据速率为:MT
其中,B 是用户i的信道带宽, 是用户i的传输功率, 是参考距离1m处的信道功率增益, 是M用户i和无人机j之间的距离平方,N0是噪声功率谱密度,G0为正常数,G0≈
2.2846;
S35,当用户的卸载决策为本地卸载时,其计算时延和计算能耗的公式为:其中ki为用户i的有效交换电容,fi,0为用户i本身的计算资源;
当用户的卸载决策为近端卸载时,其计算时延和计算能耗的公式为:其中κj为近端无人机j的有效切换电容,fj,i为近端无人机j为用户i分配的计算资源,Pi为用户i本身设备的传输发射功率;
当用户的卸载决策为远端卸载时,其计算时延和计算能耗的公式为:其中fk,i是远端无人机k为用户i分配的计算资源,Pj是中继无人机j的发射功率;
用户设备i对应的能耗公式以及时延公式如下所示:其中 是用户选择本地卸载时的能耗, 是用户选择本地卸载时的时延; 是用户选择近端卸载时的能耗; 是用户选择远端卸载时的能耗;
S36,设无人机自带大小容量为Emax的电池,无人机空中捕获能量的效率公式表示为:其中,Pj为每个无人机在T时间内所捕获的能量, 为第n个子信道的增益, 为基站向第n个子信道广播发射功率;
无人机的太阳能板充电效率为:
其中ηs代表能量转换效率,S代表太阳能电池板的面积,Gs代表地球上的平均太阳辐射,αs是大气透过率的最大值,βs是大气的消光系数,δs地球的尺度高度;
无人机电量警戒值设为满电量的20%,即:Emin=0.2Emax
无人机从警戒值到满电所需要的充电时间为:其中Pf是无人机飞行时的能量消耗速率;
无人机充当中继站的同时从警戒值到满电所需要的充电时间为:充电约束如下:
solar
Pj+P ‑Pj‑Pf>0;
S37,总系统能耗优化问题如下:其中目标函数表示整个系统的能耗, 表示的是无人机的悬停能耗;约束C1和C2表示用户的位置在规定范围内,约束C3和C4表示无人机的位置在规定范围内,约束C5表示所有任务的处理时延不能超过最大时延
4.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S5中,采用差分进化算法求解无人机的计算资源分配策略的过程包括以下步骤:
S51,将每个无人机的坐标当作一个个体,所有无人机的个体组合起来,生成无人机种群;基于步骤S4得到的卸载决策,将所有无人机的资源分配表示为一个种群,每个无人机分给任务的资源被编码成一个个体;P(X,g)代表第g代无人机的资源分配:P(X,g)={X1(g),…,Xj(g),…,XN(g)}其中Xj(g)表示无人机j分给所有在此无人机上计算的任务的计算资源,g=1,…,gmax;
S52,初始化生成无人机的资源分配策略为Xj(1),构造种群P(X,1);在第g代中,每个个体Xj(g)执行变异和交叉操作以生成新的个体Fj(g);
S53,基于卸载决策分别评估新的和旧的资源分配决策,选择最佳个体作为下一代,表述为:
其中X′代表Fj(g)取代Xj(g),f()表示基于之前的卸载决策,给定资源分配后整体系统的能耗情况,当P(X′,g)比P(X,g)表现的要优秀时,Xj(g+1)=Fj(g+1);
S54,循环步骤S52和S53直到达到迭代次数上线或满足相应的预设条件时为止。
5.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,步骤S6中,基于求解出的用户设备的卸载决策和无人机的计算资源分配策略,再次利用差分进化算法对无人机部署策略进行优化的过程包括以下步骤:S61,基于S5步骤得到的资源分配,将所有无人机的位置表示为一个种群,每个无人机的坐标被编码成一个个体,P(X,g)代表第g代无人机的x,y轴坐标;
S62,令无人机的位置为Xj(1),构造种群P(X,1);在第g代中,每个个体Xj(g)执行变异和交叉操作以生成新的个体Uj(g);
S63,基于卸载决策和任务调度分别评估新的和旧的无人机部署位置,并选择最佳个体作为下一代,其表述为:
其中X′代表Uj(g)取代Xj(g),f()表示基于之前的卸载决策和资源分配,根据相应无人机位置求出整体系统的能耗情况,当P(X′,g)比P(X,g)表现的优秀时,Xj(g+1)=Fj(g+1)。
6.根据权利要求1所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述多无人机空中充电和任务调度方法还包括以下步骤:S8,在无人机自身空闲的情况下,无人机发送充电需求至地面基站或其他设施,地面基站或其他设施向空中发射能量波供无人机吸收充电,同时无人机也能够通过自身的太阳能板来吸收太阳能,以此恢复自身电量;
其中,在无人机正在处理任务时,若电量小于设定的电量警戒值,停止当前任务,将自身所有任务传输给其他无人机,自身开始专心吸收能量充电,直至电量高于80%,期间该无人机充当中继站帮助其他无人机转发任务。
7.根据权利要求6所述的基于深度强化学习的多无人机空中充电和任务调度方法,其特征在于,所述电量警戒值为20%总电量。