利索能及
我要发布
收藏
专利号: 2021109473458
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.边云架构下基于深度强化学习的多目标优化卸载策略确定方法,其特征在于包括以下步骤:步骤1.建立边云架构系统模型:

边云架构下的系统模型自下而上是终端设备、边缘服务器和中心云,最底端的是终端设备,总共有N个终端设备,即{1,2,..,N},每个设备终端都有一个计算密集型任务Rn={bn,dn,τmax}需要执行,其中,bn代表用户的计算任务数据块大小,dn代表任务的工作负载,τmax代表当前任务的最大容忍延迟;

中间层为边缘层,即边缘服务器,边缘服务器集合为E={e1,e2,...,em},在整个架构中有多个基站,每个集站附近都部署一个MEC服务器,每个基站所覆盖的区域内都存在多个任务进行卸载计算;

边缘架构的最上层为中心云,中心云的数量只有一个,云服务器通过交换机与基站进行通信;任务的卸载方式为0,1,2卸载,即A={a1,a2,...,aN},an∈{0,1,2}代表着用户产生的任务决定卸载到哪里,an=0表示终端任务选择本地执行,an=1表示用户任务选择边缘服务器端进行卸载执行,an=2表示选择卸载到中心云端执行该任务;每一个任务作为一个完整的任务进行卸载;

步骤2.根据边云架构模型,制定详细的通信模型:当系统开始产生任务后,如果终端设备不能够满足当前任务的时延和能耗的需求,任务通过终端设备上传至边缘服务器;令Hn表示终端设备n与其邻近边缘服务器间的信道增益,令Sn表示终端设备n的发送功率,则本地设备n的上传速率定义为:2

其中σ表示噪声功耗,B表示各设备间的无线信道带宽;

当到达边缘服务器后,如果边缘服务器不能够满足当前任务的时延和能耗的需求,任务通过边缘服务器上传至云服务器;令Hm,cloud表示边缘服务器em与云服务器之间的信道增益,Wm表示边缘服务器em的发送功率,则边缘服务器em与云服务器之间的传输速率定义为:步骤3.根据边云架构系统模型,制定详细的计算模型:当设备选择在本地执行其任务,定义 为本地执行延迟,它只包括本地CPU处理时间,本地执行时间为:本地消耗能耗为:

其中定义 代表终端设备执行任务的计算能力,即终端设备单位时间运行CPU周期数;

ωlocal为移动设备在每个CPU周期中的能耗系数;

当任务选择通过通道卸载到边缘服务器上执行,则该任务在边缘服务器端进行处理的总时延 包括任务的传输时延 和任务的执行时延 具体如下:该任务在边缘服务器端进行处理的总能耗 包括任务的传输能耗 和任务的执行能耗 具体如下:

其中,

任务的传输时延为:

任务的传输能耗为:

任务的执行时延为:

任务的执行能耗为:

其中pn为边缘设备执行任务时的功率, 为边缘服务器计算能力,即边缘服务器单位时间运行CPU周期数,ωmec为边缘服务器完成每个CPU周期数的能耗系数;

当任务分配至云端进行执行时,该任务的总时延 为本地设备传输至边缘服务器em的延时、边缘服务器em传输至云服务器的延时,以及任务在云端执行的延时之和,具体如下:其中 表示云服务器的计算能力,即云服务器单位时间运行CPU周期数;

任务的总能耗 包括计算能耗和传输能耗两部分,具体如下:ωcloud为云服务器完成每个CPU周期数的能耗系数;

步骤4.建立面向时延和能耗的联合优化模型,具体如下:其中,Costn为设备n进行任务处理所消耗的总代价,具体公式如下:

0≤λ1,λ2≤1,λ1+λ2=1;

步骤5.根据上述所描述的系统模型、计算模型和联合优化模型,建立深度强化学习模型,深度强化学习模型包括:(1)状态单元

状态单元用于反映系统在每一时刻的任务数量和系统的总体开销,具体由两部分组成st=(Sc,Ctotal),Sc是当前系统产生的所有任务的数量;

(2)Q值函数

Q值函数公式为:

Q(st,at)=rt+γmax Q(st+1,an)    (15)其中γ为折扣因子;

(3)动作单元

动作单元设定为at∈{0,1,2},即为t时刻的任务卸载决策,at定义为:at=argmax(Q(st,an))    (16)at的选择即为选取Q值函数中最大值的动作an;

(4)奖惩值

奖惩值用于评价所选卸载策略的优劣,奖惩值大,所选卸载策略越好,奖惩值定义为:其中 即当前所有任务全部在本地执行的总开销;

步骤6.利用深度确定性策略梯度算法优化深度强化学习模型,得到最优的卸载策略和系统总开销,具体为:每一个执行者在当前状态st下按照深度确定性策略梯度算法进行动作选择at,选择卸载到本地、边缘服务器或者是中心云端执行;每一个执行者选择完成后,计算系统总开销,更新当前状态st并进入下一个执行者的选择,同时得到当前状态返回的奖惩值rt;在动作单元、状态单元和奖惩值不断的交互下,卸载策略将不断被优化直到奖惩值最大化,得到最优的卸载策略同时最小化系统整体时延和能耗。