1.一种基于DDPG的空中安全数据采集及资源分配方法,其特征在于,包括以下步骤:步骤一、将无人机安全数据收集过程建模为一个马尔可夫决策过程,在有限能量和给定公平要求的条件下,通过联合优化无人机的轨迹和所有用户的带宽分配,最大化考虑系统的公平保密总吞吐量,构建优化问题,包括该优化问题的通信模型、信道模型和能耗模型,所述优化问题为:s.t.E[0]=Emax,E[N]≥0,(24b)
v[0]=0,(24f)
sum
其中,Q,B分别表示无人机的轨迹和K个用户的带宽,R 表示系统在整个任务期间的公平总保密率,E[0]表示在第0个时隙即初始时的无人机能耗,Emax表示无人机总能量,E[N]表示在第N个时隙无人机的飞行能耗,QS[0],QS[N]分别表示无人机的起点和终点,QS[n]表示无人机S在第n个时隙的位置,v[n]表示无人机S在第n个时隙的速度,是一个二进制指标,如果 那么加速度的方向与速度的方向相同,如果 那么加速度和速度的方向相反,vd[n]和||ac[n]||分别表示无人机的单位速度矢量和加速度矢量,z[n]表示无人机的飞行高度,v[0]表示无人机初始速度,vmax表示无人机最大的飞行速度, 表示第n个时隙分配给用户Uk的通信带宽, 表示无人机是否与用户Uk建立通信链路, 表示保密率阈值, 表示Uk的可实现保密率,I[n]表示二进制变量, 表示Jain’s公平指数,kf表示目标公平性阈值,δt表示一个时隙的长度;
(24b)和(24c)分别表示无人机的能耗约束和无人机的位置约束,其中 和 分别表示无人机的初始位置和最终位置,(24e)是无人机飞行的高度约束,其中zmin和zmax分别表示无人机允许的最低和最高高度,(24f)和(24g)分别表示初始速度约束和无人机的速度约束,(24h)是飞行过程中要满足的速度迭代约束,(24i)表示加速度约束,amin和amax分别表示无人机最小的加速度和最大的加速度,(24j)表示带宽分配约束,(24k)表示功率和公平性约束;
构建深度强化学习网络框架,包括策略网络、评论家网络和目标网络,策略网络以环境信息作为输入,无人机下一个时刻的速度矢量为输出,评论家网络以环境的信息和策略网络的输出作为输入,对策略网络的输出进行评估;
步骤二、构建强化学习网络中的奖励函数,包括能耗奖励、到达目的地奖励、保密率奖励和约束奖励;
步骤三、当前时隙的状态信息输入到策略网络中,从而获得无人机的动作,无人机在仿真环境中执行所述动作,获取下一时隙的状态信息和该时隙的奖励,再将下一时隙的状态信息输入策略网络,如此循环直到无人机返回终点;针对每一次循环的状态信息,利用步骤二中的奖励函数计算瞬时奖励值并累积奖励得到当前飞行时间的累积奖励值;
步骤四、通过步骤三获得多个样本构建样本池,利用样本池中的样本对策略网络和评论家网络进行训练更新,同时继续按照步骤三的方式获得新的样本,放入样本池,直到累积奖励值趋于稳定,此时完成策略网络训练;
步骤五、采用训练好的策略网络进行无人机轨迹优化。
2.根据权利要求1所述一种基于DDPG的空中安全数据采集及资源分配方法,其特征在于:通过以下公式计算得到无人机与用户之间的信道增益:无人机S和用户Uk之间在时隙n的LoS连接概率为:
这里ηa和ηb是与传播环境类型相关的常数, 表示无人机S到用户Uk的欧式距离,z[n]表示无人机飞行高度,无人机S到用户Uk之间的LoS和NLoS链路的路径损失表达式为:NLoS链路的概率为 表示在时隙n的LoS连接概率, 为自由空间路径损耗,ηLoS和ηNLoS分别是LoS和NLoS链路的过度路径损耗;最后,无人机S与用户Uk之间的路径损失表达式变为:在n时隙下,无人机S与用户Uk的信道增益为:
fc为载波频率,vc为光速;
地面用户与窃听的信道链路同时考虑了大尺度路径损耗和小尺度瑞利衰落,其信道增益为:其中,ρ0表示在参考距离1m处的信道功率增益, 遵循具有单位均值的指数分布,α为路径损失指数, 表示用户与窃听之间的欧氏距离; 和 分别表示Uk和Em在第n个时隙的水平位置;
用户Uk与窃听Em的信道增益被表示为:
和rE分别表示窃听所在区域的圆心和半径;
从而计算每一个用户对于所有窃听,最大保密速率为:
表示用户Uk的可实现速率, 表示Em的可实现窃听率的上界;M表示地面窃听者的数量,m代表第m个窃听者。
3.根据权利要求1所述一种基于DDPG的空中安全数据采集及资源分配方法,其特征在于:无人机的剩余能量表示为:其中,PB和PI表示悬停状态下叶片轮廓功率和诱导功率的常数参数,Utip为转子叶片的尖端速度,v0为悬停时的平均转子诱导速度,参数d0、s、ρ和A分别代表机身阻力比、转子坚固度、空气密度和转子盘面积。
4.根据权利要求1所述一种基于DDPG的空中安全数据采集及资源分配方法,其特征在于:所述奖励函数包括,能量消耗惩罚表示为:
rec[n]=‑κecP[n]δt,
这里κec为常数,调整能耗消耗部分的奖励大小,P[n]表示无人机在第n个时隙中的飞行功率;
到达目的地部分的连续奖励为:
κrd1是一个正常数,用于调整位移奖励的大小,κrd2是一个正常数,用于调整距离奖励的大小,κrd3用于调整奖励与距离的斜率变化大小,ξrd(n)表示一个二进制指标;
当能量耗尽时,设置一个奖励rar(n),指示无人机是否到达目标点,即:κar为到达最终位置的奖励系数,κnar为未到达最终位置的奖励系数,当电池耗尽时,如果无人机到达目的地ξar=1,否则ξar=0;
在第n个时隙保密奖励被定义为:
ins
rsec[n]=((1‑ξrd[n])κth+ξrd[n]κnth)Iuk[n]R [n]δt,其中κth为能耗充足时保密率的奖励系数,κnth为能耗即将耗尽时保密率的奖励系数,insR [n]为第n个时隙所有用户的瞬时总保密率;
为了惩罚违反加速度约束和高度约束的行为,约束奖励定义为:rA[n]=‑ξA[n]κA,
rH[n]=‑ξH[n]κH,
这里ξA[n]为二进制的加速度约束指标,其中ξA[n]=1表示加速度违反了约束,反之ξA[n]=0,相似的ξH[n]表示二进制的高度约束指标,两个负常数κA和κH分别表示对违反加速度约束条件和高度约束条件的惩罚奖励;
综上所述,奖励表述为:
r[n]=rec[n]+rrd[n]+rar[n]+rsec[n]+rA[n]+rH[n]。
5.根据权利要求4所述一种基于DDPG的空中安全数据采集及资源分配方法,其特征在于:在计算能耗奖励中,根据采用的能耗模型和该时隙的速度,计算得到当前无人机的飞行能耗,从而得到能耗奖励;
在计算到达目的地奖励中,首先根据二进制指标判断是否需要返回终点,如果需要返回终点,再计算位移奖励和无人机相对于终点位置的距离奖励,得到到达目的地奖励的连续奖励,再判断是否能耗耗尽,是否到达终点,得到到达目的地奖励的离散奖励;
计算约束奖励,通过当前策略网络输出的速度矢量和上一个时隙的速度矢量计算得到加速度矢量,从而判断加速度矢量是否满足约束,并判断无人机的飞行高度是否满足约束,从而得到约束奖励;
计算当前时隙的保密率奖励,首先根据当前无人机的位置信息和每一个用户的位置信息计算得到每一个用户与无人机之间的信道增益,从而计算得到每一个用户与无人机之间的可达速率;计算得到每一个用户与所有窃听的最坏的窃听可达速率,计算得到每一个用户的保密速率;计算得到每一个用户的二进制变量,是否满足安全传输门限,如果满足则以最大的发送功率进行数据传输,反之发送功率为0;计算当前仿真环境中用户之间的公平指数是否满足最小公平性门限,从而计算每一个用户的公平系数,最后计算得到当前时隙的总公平保密率,得到当前时隙的保密率奖励;
综上,将各个部分的奖励累加,得到当前时隙的总奖励。
6.根据权利要求1所述一种基于DDPG的空中安全数据采集及资源分配方法,其特征在Q于:步骤四所述评论家网络Q(s,a;θ)通过最小化均方损失更新其网络参数学习策略,其损失函数被表示为:π′ Q′
yt(n)=r(n)+γQ′(s(n+1),π′(s(n+1);θ );θ )Q
L(θ)是评论家网络的损失函数,Nb是批处理大小,yt(n)是目标Q值,r(n)是状态过渡过程中环境给与的奖励,γ为未来折扣因子,表示当前时隙奖励与未来奖励的权衡,0≤γ≤π Q π′ Q′
1,其中θ和θ是指策略和评论家网络的参数,π′(s;θ )和Q′(s,a;θ )分别表示策略和评论家的目标网络;
π
策略网络π(s;θ)通过最小化评论家的损失来更新其网络参数,其损失函数被表示为:π′ Q′
θ 和θ 是指策略目标网络和评论家目标网络的参数。