1.基于无线携能通信的边缘计算卸载决策与资源分配方法,其特征在于包括如下步骤:服务器发送射频信号,中继转发至设备处进行能量收集和信息传输;
在能量约束和时间约束下分别推导出本地计算和卸载计算的计算速率;
利用深度强化学习算法为多用户寻找最优的卸载决策,使计算速率最大化;
在给出卸载决策后对时间帧进行资源分配;
利用深度强化学习进行选择决策,为所得卸载数据流在边缘服务器处理数据价格发生波动时寻找最佳服务器进行卸载处理,实现成本最小化;
得到最优卸载决策,选择决策,时间分配,最优卸载决策下的最大计算速率,最优选择决策下的最小计算成本;
包含多用户、单中继和多边缘计算服务器的系统中,服务器发送射频信号和接收卸载任务并进行数据处理,中继转发信号和任务,用户端利用可充电电池存储收集到的能量,用户为N个,每个用户对应一个终端设备,服务器为N个,系统时间被划分为等长的时间帧T,每个时间帧需要完成一个计算任务;
时间帧T分为无线携能通信时间sT和终端设备计算时间ξiT,i∈N,设备计算时间内存在两种时间,一种是卸载计算时间:将处理任务上传到服务器的时间;另一种为本地计算时间:在设备本地处理任务,由于设备可同时进行无线携能通信swipt和本地计算,无线携能通信时间又分为能量收集时间βsT和信息传输时间(1‑β)sT,其中s∈[0 ,1],β∈(0 ,1);
设备需在一个时间帧内完成一个计算任务,服务器计算任务和下传任务时间不计入,即存在时间约束:s为时帧内用于无线携能通信的时间,ξi为时帧内用于计算的时间,N为终端设备数量,每个终端设备选择本地计算或者是卸载计算;终端设备处使用时分复用电路避免两个时间段内不同工作的相互干扰;
终端设备存在两种计算模式:本地计算和卸载计算;
(1)本地计算
处于本地计算状态的终端设备可以同时采集能量和计算任务,因此本地计算时间可忽略不计;设定fi为处理器每秒运算的总周期数,ti表示运算时间,0≤ti≤T,fiti为运算工作量, 表示处理1bit数据所需的周期数,则设备处理的比特量为 ,设备的能量总消耗为3
Eloc=kifiti
其中ki是有效的开关电容,
存在能量约束:Eloc≤Ei,同时,为提高能源利用率,将所有收集能量消耗殆尽,则最佳运* *算时间ti=T,处理器每秒运算的最佳总周期数fi为
本地计算的计算速率rloc为
(2)卸载计算
处于计算卸载状态的终端将自身的计算任务上传到服务器进行运算,此时时间帧分为两部分,一部分是SWIPT阶段,另一部分是计算阶段,存在能量约束:Eloc≤Ei,Ei为第i个设备所收集到的能量;为提高能源利用率,将所有收*集能量消耗殆尽,则终端设备的最佳发送功率pi为
其中ξi为第i个设备的卸载时间,存在时间约束:
设备端发送上传信号为
达到服务器的上传信号为
n0为接收器的加性高斯白噪声;
服务器的接收信号,在上传过程中的信干噪比为
其中N0为接收器的噪声功率;
则上传到服务器的卸载速率rmec为
rmec=Blog2(1+SINR);
系统的总计算速率Q包括本地计算速率rloc和卸载计算速率rmec,表示为其中xi为二进制卸载动作,当xi=1表示第i个终端设备进行计算卸载,当xi=0表示第i个终端设备进行本地计算;
最大计算速率为
*
Q(hi ,hj)=max imize(Q)
s≥0,ξi≥0,i∈{0 ,1 ,...,N}
xi∈{0 ,1},i∈{0 ,1 ,...,N}
对s,ξi,xi三个变量进行求解,最终得到最大化计算速率* *
Q(hi ,hj ,xi)=max imize(Q)s≥0,ξi≥0,i∈{0 ,1 ,...,N}
*
xi为多用户最优的卸载动作;
系统计算成本和服务器选择包括:
对于卸载数据流,在服务器处理数据价格发生波动时,寻找最优选择决策,实现成本最小化,以变化价格为状态,选择不同服务器为动作,得到最小价格成本为强化目标,成本公式为:其中, 为随时间连续变化的不同服务器的价格,在无线携能通信SWIPT阶段随射频信号d1到达用户处,rmec是系统经二进制卸载决策部署后得到的卸载速率, 表示单个时间帧内用于卸载数据的时间,总卸载数据流按照允许服务器按照进行数据处理的服务器个数l进行平分,平分后的数据被传送至对应服务器进行处理,xj为二进制选择策略,xj=1表示用户允许第j个服务器对卸载信息流进行处理,xj=0表示用户拒绝第j个服务器对卸载信息流进行处理,将时变的两段信道增益和数据处理价格输入深度神经网络中,根据当前选择策略得到多个选择动作,选择动作指在多个服务器中选择至少一个服务器进行数据处理,形成模式的数据对,确定时变价格、选择动作与对应Ω值之间的相关性,将多个选择动作代入成本公式,通过公式运算得到多个最终成本,从中选择最小成本所对应的选择动作;引入经验回放机制,将更新后的数据对 放入回访存储器中,回放存储器容量有限,当第t个时间帧存放数据内存已满时,选择存放新生成的数据对,丢弃旧数据对,从存储器中随机提取数据样本,每隔一定的时间帧对全连接神经网络DNN进行训练,采用Adam优化算法,Adam优化算法结合了Momentum和RMSprop梯度下降法,利用自适应的学习率以减少平均交叉熵损失为目的,对初始化参数使用mini‑batch梯度下降法进行迭代,再用Momentum梯度下降法计算指数加权平均数,再用RMSprop更新,最后计算Momentum和RMSprop的偏差修正,更新深度神经网络参数,如此反复直到达到设定的训练次数,神经网络与当前环境不断交互进而训练完整,神经网络不断更新选择策略至最优,最终当信道和服务器价格在需要的状态时,根据深度强化学习训练的神经网络选择当前状态下对应计算成本最小的动作,就得到最小计算成本。
2.根据权利要求1所述基于无线携能通信的边缘计算卸载决策与资源分配方法,其特征在于,每个用户的卸载决策和对服务器的选择策略是基于深度强化学习算法获得的,时间帧的资源分配采用一维双截面搜索的凸优化算法求解凸优化问题得到,从终端用户到中继,从中继到边缘服务器的信道增益和边缘服务器价格在每段时间帧内都是波动不定的。
3.根据权利要求1所述基于无线携能通信的边缘计算卸载决策与资源分配方法,其特征在于,一个卸载动作控制一个终端设备,N个卸载动作组成本文的卸载决策,一个选择动作控制一个服务器是否进行卸载计算,N个选择动作组成本文的选择决策;
卸载动作为1表示此设备的任务卸载到边缘服务器计算,卸载动作为0表示任务本地计算;选择动作为1表示任务选择此服务器进行卸载计算,选择动作为0表示任务不选择此服务器进行卸载计算。
4.根据权利要求1或3所述基于无线携能通信的边缘计算卸载决策与资源分配方法,其特征在于,能量收集时,服务器发射射频信号到达中继端,再由中继将信号以放大转发方式转发至用户设备处,计算中继转发的信号功率Pr;
服务器发送功率为Pa的具有归一化功率的射频信号d1,则服务器的发送信号可表示为经中继进行放大转发后传递至终端设备,放大转发系数Kr,中继处发送信号为其中hj为第j个服务器到中继之间的信道增益,j∈(1 ,2 ,...,N),nr为中继处的加性高斯白噪声;
中继处的发射功率为
2 2 2
Pr=krPahj+krNr
Nr为中继处的噪声功率,
用户将收集到的信号按照时隙切换模式进行划分,一段时间内信号进行能量收集,另一段时间内信号进行信息解码;同时考虑设备进行能量收集的效率,由此得到所收集到的能量Ei,则第i个设备所收集到的能量为Ei=βPrhisT
其中sT为用于无线携能通信的时间,s∈[0 ,1],β为时隙切换模式中的切换因子,β∈(0 ,1),βsT是能量收集的时间, 是服务器处理数据的时变价格表的信息解码时间,hi为中继到第i个终端设备间的信道增益,i∈(1 ,2 ,...,N),对于终端设备存在能量约束:所消耗能量不得超过Ei。