买专利、卖专利、专利购买、专利交易、专利出售、高企申报-边云架构下基于深度强化学习的多目标优化卸载策略

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

边云架构下基于深度强化学习的多目标优化卸载策略

￥15000

专利号： 2021109473458

申请人：北京工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.边云架构下基于深度强化学习的多目标优化卸载策略确定方法，其特征在于包括以下步骤：步骤1.建立边云架构系统模型：

边云架构下的系统模型自下而上是终端设备、边缘服务器和中心云，最底端的是终端设备，总共有N个终端设备，即{1，2，..，N}，每个设备终端都有一个计算密集型任务Rn＝{bn，dn，τmax}需要执行，其中，bn代表用户的计算任务数据块大小，dn代表任务的工作负载，τmax代表当前任务的最大容忍延迟；

中间层为边缘层，即边缘服务器，边缘服务器集合为E＝{e1，e2，...，em}，在整个架构中有多个基站，每个集站附近都部署一个MEC服务器，每个基站所覆盖的区域内都存在多个任务进行卸载计算；

边缘架构的最上层为中心云，中心云的数量只有一个，云服务器通过交换机与基站进行通信；任务的卸载方式为0，1，2卸载，即A＝{a1，a2，...，aN}，an∈{0，1，2}代表着用户产生的任务决定卸载到哪里，an＝0表示终端任务选择本地执行，an＝1表示用户任务选择边缘服务器端进行卸载执行，an＝2表示选择卸载到中心云端执行该任务；每一个任务作为一个完整的任务进行卸载；

步骤2.根据边云架构模型，制定详细的通信模型：当系统开始产生任务后，如果终端设备不能够满足当前任务的时延和能耗的需求，任务通过终端设备上传至边缘服务器；令Hn表示终端设备n与其邻近边缘服务器间的信道增益，令Sn表示终端设备n的发送功率，则本地设备n的上传速率定义为：2

其中σ表示噪声功耗，B表示各设备间的无线信道带宽；

当到达边缘服务器后，如果边缘服务器不能够满足当前任务的时延和能耗的需求，任务通过边缘服务器上传至云服务器；令Hm，cloud表示边缘服务器em与云服务器之间的信道增益，Wm表示边缘服务器em的发送功率，则边缘服务器em与云服务器之间的传输速率定义为：步骤3.根据边云架构系统模型，制定详细的计算模型：当设备选择在本地执行其任务，定义为本地执行延迟，它只包括本地CPU处理时间，本地执行时间为：本地消耗能耗为：

其中定义代表终端设备执行任务的计算能力，即终端设备单位时间运行CPU周期数；

ωlocal为移动设备在每个CPU周期中的能耗系数；

当任务选择通过通道卸载到边缘服务器上执行，则该任务在边缘服务器端进行处理的总时延包括任务的传输时延和任务的执行时延具体如下：该任务在边缘服务器端进行处理的总能耗包括任务的传输能耗和任务的执行能耗具体如下：

其中，

任务的传输时延为：

任务的传输能耗为：

任务的执行时延为：

任务的执行能耗为：

其中pn为边缘设备执行任务时的功率，为边缘服务器计算能力，即边缘服务器单位时间运行CPU周期数，ωmec为边缘服务器完成每个CPU周期数的能耗系数；

当任务分配至云端进行执行时，该任务的总时延为本地设备传输至边缘服务器em的延时、边缘服务器em传输至云服务器的延时，以及任务在云端执行的延时之和，具体如下：其中表示云服务器的计算能力，即云服务器单位时间运行CPU周期数；

任务的总能耗包括计算能耗和传输能耗两部分，具体如下：ωcloud为云服务器完成每个CPU周期数的能耗系数；

步骤4.建立面向时延和能耗的联合优化模型，具体如下：其中，Costn为设备n进行任务处理所消耗的总代价，具体公式如下：

0≤λ1，λ2≤1，λ1+λ2＝1；

步骤5.根据上述所描述的系统模型、计算模型和联合优化模型，建立深度强化学习模型，深度强化学习模型包括：(1)状态单元

状态单元用于反映系统在每一时刻的任务数量和系统的总体开销，具体由两部分组成st＝(Sc，Ctotal)，Sc是当前系统产生的所有任务的数量；

(2)Q值函数

Q值函数公式为：

Q(st，at)＝rt+γmax Q(st+1，an) (15)其中γ为折扣因子；

(3)动作单元

动作单元设定为at∈{0，1，2}，即为t时刻的任务卸载决策，at定义为：at＝argmax(Q(st，an)) (16)at的选择即为选取Q值函数中最大值的动作an；

(4)奖惩值

奖惩值用于评价所选卸载策略的优劣，奖惩值大，所选卸载策略越好，奖惩值定义为：其中即当前所有任务全部在本地执行的总开销；

步骤6.利用深度确定性策略梯度算法优化深度强化学习模型，得到最优的卸载策略和系统总开销，具体为：每一个执行者在当前状态st下按照深度确定性策略梯度算法进行动作选择at，选择卸载到本地、边缘服务器或者是中心云端执行；每一个执行者选择完成后，计算系统总开销，更新当前状态st并进入下一个执行者的选择，同时得到当前状态返回的奖惩值rt；在动作单元、状态单元和奖惩值不断的交互下，卸载策略将不断被优化直到奖惩值最大化，得到最优的卸载策略同时最小化系统整体时延和能耗。