利索能及
我要发布
收藏
专利号: 2022113481216
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2026-03-05
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,包括:S1:构建无人机对地通信系统模型,采用无人机对地通信系统模型确定无人机轨迹;根据无人机轨迹确定AoI的优化目标函数;其中,AoI表示信息年龄;

S2:获取当前环境状态信息,根据当前环境状态信息采用改进的PPO算法对AoI优化目标函数进行深度学习,得到无人机在当前的飞行状态;其中改进的PPO算法包括采用集中式策略学习和共享奖励对PPO算法进行优化;

S3:无人机在当前飞行状态下获取地面节点产生的数据包,若所有节点的数据收集完毕,则无人机飞行结束,否则返回步骤S2。

2.根据权利要求1所述的一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,构建无人机对地通信系统模型包括:获取无人机飞行环境信息,采用栅格法将采集的环境信息划分为一系列大小相同的单元格;将基站设置在无人机飞行区域的中心,基站的覆盖区域是半径为R的圆形区域,将基站信号的覆盖范围外的单元格划分为禁飞区;获取地面通信节点的位置信息,根据无人机飞行环境和地面通信节点的位置信息构建无人机对地通信系统模型。

3.根据权利要1所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,确定AoI的优化目标函数的过程包括:将无人机执行任务的时间离散为至少两个等长的时间间隔;确定无人机的飞行高度和飞行速度;根据无人机的飞行高度、飞行速度以及任务时间构建无人机速度约束条件;无人机采集地面信息,当无人机采集到地面节点存储的最新数据时,则对该地面节点的AoI信息进行更新,否则该地面节点的AoI信息进行线性增长;如果地面节点的缓冲区内并没有存储数据或已经被采集完毕,则AoI设为1,否则为0;将无人机n与地面节点m完成采集的时间记为ts,根据时间ts对无人机的飞行轨迹和连接策略进行规划。

4.根据权利要3所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,优化目标函数为:(P1):minq,K∑m∈MAm(ts)s.t.‖qn(t)-qn(t-1)‖≤Vmax,

其中,q表示无人机的位置形成的轨迹序列,K表示对无人机与地面节点之间的连接关系,M表示地面节点数量,Am表示地面节点m的AoI,ts表示无人机n与地面节点m完成采集的时间,qn(t)表示第n个无人机在t时刻的位置,Vmax表示无人机飞行的最大速度,表示在t∈[0,T]时刻无人机n和节点m之间的连接关系,N表示无人机数量。

5.根据权利要3所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,无人机的连接策略为马尔可夫决策过程,马尔可夫决策包含四元组,其中S、A分别为状态空间和动作空间,体现了无人机的状态与动作;P为状态转移函数,表示无人机在当前状态下执行动作时转移到下一状态的概率;R为奖励函数,表示无人机处于当前状态时可获得的奖励。

6.根据权利要求5所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,状态转移函数包括无人机的位置更新方程和AoI的状态更新方程;其中,无人机的位置更新方程为:

AoI的状态更新方程为:

其中,q(t)表示无人机水平位置的坐标,D表示两个相邻的格子的中心位置的距离,Vt表示无人机的飞行方向,North表示北方向,South表示南方向,East表示东方向,West表示西方向,Am(t)表示在t时刻地面传感器m的AoI,表示在t∈[0,T]时刻无人机n和节点m之间的连接关系。

7.根据权利要求5所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,奖励函数包括根据目标优化问题构建奖励函数,轨迹规划的目标是最小化采集目标信息,其中奖励函数是关于AoI的函数,当找到目标点时,奖励为r1;当飞出有效区域时,奖励为负的r2;无人机信息采集结束时,判断是否采集所有地面节点的数据包,若采集完毕则奖励为r3,否则为-r4;其他情况为-Am(t);其中,r1,r2,r3,r4为正数。

8.根据权利要1所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,采用改进的PPO算法对AoI优化目标函数进行深度学习的过程包括:S21:将状态信息(s1,s2…sn)输入到Actor网络得到所有动作的概率,根据所有动作的概率输出联合动作(a1,a2…an);其中,所有智能体共用一个Actor网络,每个智能体i的输入为全局观测的环境信息,输出为智能体i的联合动作;

S22:将联合动作(a1,a2…an)输入到环境中得到全局的奖励r和下一步的状态s_,根据下一步的状态得到轨迹并将其存储在经验池中;

S23:将轨迹τ中的所有状态s输入至Critic网络,得到无人机在一个轨迹中所有状态所对应的状态价值V(st);

S24:无人机执行联合动作at并到达状态st+1后,计算采用不同的动作所得期望的累计奖励平均值Gt=rt+γV(st+1),根据累计奖励平均值计算优势函数A(st,at)=Gt-V(st),对优势函数采用泛化优势估计以平衡值函数估计的方差与偏差;

S25:计算Critic网络的损失,其中Critic的损失函数为优势函数的平方均值;

S26:将得到的优势函数A(st,at)作为Critic网络对动作策略的评价,从而对Actor网络的输出策略进行改进,得到新策略πθ;

S27:将存储的所有状态s组合分别输入到新旧策略πθ和πθ′下的动作Actor网络中,得到不同策略下的无人机动作概率分布prob1和prob2;根据prob1和prob2计算重要性权重;根据重要性权重获取修正不同策略θ和θ′的两个动作分布之间的差异,根据两个动作分布之间的差异计算更新后的策略期望回报值;

S28:设置更新后策略的约束条件,根据约束条件和策略期望回报值计算Actor网络的损失函数;

S29:根据损失函数使用梯度下降算法更新Actor网络和Critic网络的参数,更新至奖励收敛不变,输出无人机当前的最优飞行策略。

9.根据权利要求8所述的一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,最优策略为:

其中,表示根据轨迹τ对折扣奖励求期望值,γ表示折扣因子,rt表示t时刻的即时奖励。

10.根据权利要8所述一种基于信息年龄的无人机轨迹自适应优化方法,其特征在于,Actor网络的损失函数为:JCLIP(θ)=E[min(r(t)Aπ,clip(r(t),1-ε,1+ε)Aπ)]其中,JCLIP(θ)表示Actor网络的损失函数,θ表示Actor的网络权重,E表示求期望运算,r(t)为新旧策略之比,Aπ表示采取策略π的优势函数;clip为选择输出函数,即如果r(t)小于1-ε,则输出1-ε,如果r(t)大于1+ε,则输出1+ε,其他则输出r(t);ε表示裁剪幅度超参数。