买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于TRPO算法的无人集群任务卸载方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于TRPO算法的无人集群任务卸载方法

￥25800

专利号： 2025101115833

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于TRPO算法的无人集群任务卸载方法，其特征在于：包括以下步骤：步骤一：建立无人集群三层计算框架，监测地面设备的活跃状态并接收地面设备周期性产生的任务，根据工作量和最大可容忍延时将任务的信息表示为集合；

步骤二：建立马尔可夫泊松调制的随机过程表示任务到达，定量分析模型内时变任务的服务延时；

步骤三：构建系统的通信模型、延时模型、能耗模型；

步骤四：引入多智能体马尔可夫决策过程描述S2的动态决策过程，智能体之间共享信息做出实时响应；

步骤五：利用TRPO算法联合优化延时、能量，训练模型获得最佳卸载决策，采用最佳决策执行卸载；

所述步骤五中对改进的多智能体TRPO算法进行训练包括如下步骤：S5.1：初始化状态s1，重置环境；

S5.2：在满足最大回合数之前，每个智能体从环境获得观测o(t)，根据策略πθ'(at|ot)执i i i i i行动作，得到及时奖励rt，观测新环境的状态st+1，将轨迹Tr (t)＝{o(t),a (t),r (t),s (t+1)}存储到缓冲池中，并计算每个状态的优势函数即i

其中，Aπ是策略π的优势函数，即在状态s下，动作a相对于平均动作的优势，Q表示状态动作值函数，V表示处于状态s时的值函数；

S5.3：估计样本策略模型梯度，利用共轭梯度算法计算步长；

S5.4：满足KL散度情况下，更新Actor网络参数θ；

S5.5：优化价值网络参数φ以最小化回报和状态价值之间的均方误差，损失函数定义为：S5.6：进入分散执行阶段，在每个无人设备上独立地执行训练好的网络。

2.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤一中无人集群三层计算框架从下到上包括任务收集层，中继传输层和信息控制层，其中，任务收集层的K个小型无人设备负责接收小区产生的任务，用集合K＝{1,2,…,K}表示，Uk∈K，确保任务能被接收，保持准静止状态；中继传输层的M个无人设备既能充当中继将任务多跳转发给最上层，也充当服务器进行本地计算实现分流，用集合M＝{1,2,…,M}表示，Um∈M；信息控制层的大型无人设备Uh具有强大计算效率和大容量电池，作为首领对整个系统任务卸载的过程进行规划。

3.根据权利要求2所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤一中地面设备的活跃状态由过程Ak(t)的状态空间表征，属于{0,1}，0表示低活跃度，1表示高活跃度。

4.根据权利要求3所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤一中任务信息集合涵盖三个参数，表示为其中Vj表示要处理的数据量，Oj描述完成该任务所需的CPU周期的总数，表示该任务可以容忍的最大延时，超过任务交付失败；任务按照二进制卸载模式操作，无人设备Uk的卸载决策用αj∈{0,…,N}表示；当αj＝n时，表示任务j将被无人设备Un的计算单元执行，加入卸载队列等待；也就是说当αj＝0时，任务被本地计算，j加入队列遵循先来先服务的原则。

5.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤二中任务到达的随机过程服从泊松分布，对于任务J到达任意一个信息收集层无人设备的过程Ak(t)建模为两状态的马尔可夫调制泊松过程。

6.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤三中构建系统的通信模型、延时模型具体包括：如果任务在本地执行，任务j在无人设备Uk计算延时为

如果小型无人设备选择卸载，由于小区内网的无人设备处于固定位置，小型无人设备的位置表示为(xk,yk,zk)，另一个无人设备Um在时刻t的位置是(xm(t),ym(t),zm(t))，二者之间的距离是根据自由空间传播模型来建模无人集群组网，信道增益为其中，d0代表参考距离；根据香农公式传输速率最大可以达到其中，W表示

信道带宽，Ps代表小型无人设备信号功率，β0代表参考距离d 0＝1m处的平均信道功率增益，Gkm(t)代表t时刻的信道增益，N0表示信道高斯白噪声，ψ代表方位角；任务j在Uk和Um间一对一传输过程中的延时为如果卸载的对象不在通信范围内，定义集合Nu表示卸载路径上相关联的无人设备，当αj＝n时，n∈Nu并且是卸载的终点，传输时间为多跳传输的总和，对应的延时为：最终一个任务的总延时为：

7.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤三中建立系统的能耗模型的方法包括：能量损耗包括任务j在卸载和执行阶段的能耗成本，有CPU执行任务的能量和进行卸载转发任务的能耗；

如果任务在本地执行，任务j在无人设备Uk本地计算消耗的能量为

其中κ是取决于芯片架构的有效开关电容；如果将任务卸载到计算节

点Un时，对应的能量消耗为最终一个任务的总能量损耗为：

8.根据权利要求1所述的一种基于TRPO算法的无人集群任务卸载方法，其特征在于：所述步骤四中马尔可夫决策过程基本元素包括：状态空间：单个智能体能够观测到的状态包括覆盖地区设备的活跃状态、本地队列的拥塞程度、以及环境中其它无人设备的状态，所有智能体在时隙t的状态集合表示为S(t)＝A e o u{S(t),S(t),S(t),S(t)}；

动作空间：每个无人设备根据观察对任务j的卸载对象做出决策，αj∈{0,…,N}，αj>0代表服务器的卸载对象，αj＝0表示本地计算；

状态转移：在智能体采取某个动作后，动作与环境交互，整个系统状态转移的过程为QΣ Σ Σ，其泛型元素定义为Q[s,s']＝Pr(S (t)＝s'|S (t‑1)＝s)，其中，s和s'是马尔可夫链的两种状态常量；

奖励：联合优化的目标是最小化每个无人设备产生的延时和能量开销，无人设备每一时隙与环境交互后会得到一个奖励，ωk(t)表示无人设备Uk在时隙t内处理任务的延时和能量开销；计算奖励函数。