利索能及
我要发布
收藏
专利号: 2025101115833
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于TRPO算法的无人集群任务卸载方法,其特征在于:包括以下步骤:步骤一:建立无人集群三层计算框架,监测地面设备的活跃状态并接收地面设备周期性产生的任务,根据工作量和最大可容忍延时将任务的信息表示为集合;

步骤二:建立马尔可夫泊松调制的随机过程表示任务到达,定量分析模型内时变任务的服务延时;

步骤三:构建系统的通信模型、延时模型、能耗模型;

步骤四:引入多智能体马尔可夫决策过程描述S2的动态决策过程,智能体之间共享信息做出实时响应;

步骤五:利用TRPO算法联合优化延时、能量,训练模型获得最佳卸载决策,采用最佳决策执行卸载;

所述步骤五中对改进的多智能体TRPO算法进行训练包括如下步骤:S5.1:初始化状态s1,重置环境;

S5.2:在满足最大回合数之前,每个智能体从环境获得观测o(t),根据策略πθ'(at|ot)执i i i i i行动作,得到及时奖励rt,观测新环境的状态st+1,将轨迹Tr (t)={o(t),a (t),r (t),s (t+1)}存储到缓冲池中,并计算每个状态的优势函数即i

其中,Aπ是策略π的优势函数,即在状态s下,动作a相对于平均动作的优势,Q表示状态动作值函数,V表示处于状态s时的值函数;

S5.3:估计样本策略模型梯度,利用共轭梯度算法计算步长;

S5.4:满足KL散度情况下,更新Actor网络参数θ;

S5.5:优化价值网络参数φ以最小化回报和状态价值之间的均方误差,损失函数定义为:S5.6:进入分散执行阶段,在每个无人设备上独立地执行训练好的网络。

2.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤一中无人集群三层计算框架从下到上包括任务收集层,中继传输层和信息控制层,其中,任务收集层的K个小型无人设备负责接收小区产生的任务,用集合K={1,2,…,K}表示,Uk∈K,确保任务能被接收,保持准静止状态;中继传输层的M个无人设备既能充当中继将任务多跳转发给最上层,也充当服务器进行本地计算实现分流,用集合M={1,2,…,M}表示,Um∈M;信息控制层的大型无人设备Uh具有强大计算效率和大容量电池,作为首领对整个系统任务卸载的过程进行规划。

3.根据权利要求2所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤一中地面设备的活跃状态由过程Ak(t)的状态空间 表征, 属于{0,1},0表示低活跃度,1表示高活跃度。

4.根据权利要求3所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤一中任务信息集合涵盖三个参数,表示为 其中Vj表示要处理的数据量,Oj描述完成该任务所需的CPU周期的总数, 表示该任务可以容忍的最大延时,超过任务交付失败;任务按照二进制卸载模式操作,无人设备Uk的卸载决策用αj∈{0,…,N}表示;当αj=n时,表示任务j将被无人设备Un的计算单元执行,加入卸载队列 等待;也就是说当αj=0时,任务被本地计算,j加入 队列遵循先来先服务的原则。

5.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤二中任务到达的随机过程服从泊松分布,对于任务J到达任意一个信息收集层无人设备的过程Ak(t)建模为两状态的马尔可夫调制泊松过程。

6.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤三中构建系统的通信模型、延时模型具体包括:如果任务在本地执行,任务j在无人设备Uk计算延时为

如果小型无人设备选择卸载,由于小区内网的无人设备处于固定位置,小型无人设备的位置表示为(xk,yk,zk),另一个无人设备Um在时刻t的位置是(xm(t),ym(t),zm(t)),二者之间的距离是根据自由空间传播模型来建模无人集群组网,信道增益为 其中,d0代表参考距离;根据香农公式传输速率最大可以达到 其中,W表示

信道带宽,Ps代表小型无人设备信号功率,β0代表参考距离d 0=1m处的平均信道功率增益,Gkm(t)代表t时刻的信道增益,N0表示信道高斯白噪声,ψ代表方位角;任务j在Uk和Um间一对一传输过程中的延时为如果卸载的对象不在通信范围内,定义集合Nu表示卸载路径上相关联的无人设备,当αj=n时,n∈Nu并且是卸载的终点,传输时间为多跳传输的总和,对应的延时为:最终一个任务的总延时为:

7.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤三中建立系统的能耗模型的方法包括:能量损耗包括任务j在卸载和执行阶段的能耗成本,有CPU执行任务的能量和进行卸载转发任务的能耗;

如果任务在本地执行,任务j在无人设备Uk本地计算消耗的能量为

其中κ是取决于芯片架构的有效开关电容;如果将任务卸载到计算节

点Un时,对应的能量消耗为 最终一个任务的总能量损耗为:

8.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法,其特征在于:所述步骤四中马尔可夫决策过程基本元素包括:状态空间:单个智能体能够观测到的状态包括覆盖地区设备的活跃状态、本地队列的拥塞程度、以及环境中其它无人设备的状态,所有智能体在时隙t的状态集合表示为S(t)=A e o u{S(t),S(t),S(t),S(t)};

动作空间:每个无人设备根据观察对任务j的卸载对象做出决策,αj∈{0,…,N},αj>0代表服务器的卸载对象,αj=0表示本地计算;

状态转移:在智能体采取某个动作后,动作与环境交互,整个系统状态转移的过程为QΣ Σ Σ,其泛型元素定义为Q[s,s']=Pr(S (t)=s'|S (t‑1)=s),其中,s和s'是马尔可夫链的两种状态常量;

奖励:联合优化的目标是最小化每个无人设备产生的延时和能量开销,无人设备每一时隙与环境交互后会得到一个奖励,ωk(t)表示无人设备Uk在时隙t内处理任务的延时和能量开销;计算奖励函数。