买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于深度强化学习的节能型自动互联车辆服务卸载方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于深度强化学习的节能型自动互联车辆服务卸载方法

￥31200

专利号： 2022101141995

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：基于由各车辆、各边缘计算设备、以及云服务器构成的端‑边‑云协同系统下，各边缘计算设备分别与各预设区域一一对应，针对预设时间段内各预设区域中的服务请求，端‑边‑云协同系统执行以下步骤，得到各边缘计算设备分别对应的车辆服务卸载模型，实现各边缘计算设备为对应预设区域的服务请求提供相应的服务卸载决策：步骤A：针对端‑边‑云协同系统，基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端‑边‑云协同系统的目标函数与约束条件；

步骤B：基于端‑边‑云协同系统的目标函数与约束条件，针对预设时间段内各预设区域中的服务请求，采用异步强化学习方法对各边缘计算设备的服务卸载决策模型进行优化，得到各边缘计算设备分别一一对应的车辆服务卸载模型；

步骤C：基于各边缘计算设备分别一一对应的车辆服务卸载模型，各边缘计算设备为对应区域的自动车辆的服务请求提供相应的服务卸载决策。

2.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述步骤A中各边缘计算设备执行服务卸载决策时由步骤A1至步骤A3,得到各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型；

步骤A1：针对预设时间段内任意边缘计算设备中的第i个服务si，车辆到边缘计算设备的最大通信速率表示为：其中，Bi表示分配给服务si的带宽，pi表示自动车辆vi与边缘计算设备间的传输功率,vi表示产生服务请求的车辆，gi表示自动车辆vi与边缘计算设备间的信道增益，N0则代表信道的噪声功率密度；

当服务在车辆本地计算，总时延表示为：

loc

其中，fi 表示产生服务si的自动车辆的本地计算速率，ci表示服务si的计算量；

车辆本地的能耗表示为：

其中，k表示能量因子；

步骤A2：当服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，计算过程如下：步骤A2.1：针对服务si被服务卸载决策模型要求服务卸载到边缘计算设备执行时，边缘计算设备针对该服务si分配计算资源；

车辆到边缘计算设备的传输时延表示为：

式中，di表示服务si的数据量；

车辆到边缘计算设备对应的传输能耗表示为：

式中，pi表示车辆到边缘计算设备的传输功率，表示车辆到边缘计算设备的传输时间；

步骤A2.2：边缘计算设备中总的计算资源平均地划分为各个可分配的子计算资源，每个子计算资源贡献固定份额的计算速率fi，即其中表示为服务si分配的single子计算资源个数，C 表示每个子计算资源的算力，当服务传输到边缘计算设备后，边缘计算设备基于该服务所分配的计算资源执行该服务，服务的计算耗时为：该服务的计算能耗为：

步骤A2.3：最后，基于从该服务si全部上传到边缘计算设备中到被边缘计算设备执行该服务的过程中，存在等待边缘计算设备服务器空出个子计算资源算力的时延式中，表示服务开始执行的时刻，而表示服务数据全部卸载到边缘计算设备中的时刻；

步骤A2.4：综上，当服务卸载到边缘计算设备执行时，整个端‑边‑云协同系统的总时延表示为：整个端‑边‑云协同系统的总能耗表示为：

步骤A3:当服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，计算过程如下：步骤A3.1：针对服务si被服务卸载决策模型要求服务卸载到云服务器执行时，先将服务数据卸载到边缘计算设备中，再从边缘计算设备卸载到云服务器中；

从边缘计算设备到云服务器之间的数据传输时延表示为：

其中，表示边云之间的传输功率，表示边云之间的信道增益；

云服务器执行过程的计算能耗为：

cloud

式中，C 表示云服务器的算力；

步骤A3.2：综上，当服务卸载到云服务器执行时，整个端‑边‑云协同系统的总时延表示为：式中，RTT表示边缘计算设备到云服务器之间的物理传输时延；

整个端‑边‑云协同系统的总能耗表示为：

3.根据权利要求2所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端‑边‑云协同系统的目标函数与约束条件；

目标函数为：

其中，表示卸载方法为si分配的信道数，表示卸载方法为si分配的计算资源数，θ表示该卸载方法的全部参数，statei表示处理si时对应边缘计算设备的状态；Nm(T)表示第m个边缘计算设备em在预设时间段T中的总服务数目，端‑边‑云协同系统中边缘计算设备总数为M；

esti表示为服务si卸载决策的得分：,

esti＝wi·δti+ζ·(1‑wi)·δei

其中，δti表示本地和卸载后服务所需时延的差值，δei表示本地和卸载后服务所需能耗的差值，ζ是时延‑能耗修正的超参数，wi表示服务的延迟敏感度；

约束条件如下：

表示每个服务分配到的信道数不得超过总信道数且每个服务必须分配信道；

表示每个服务分配到的子计算资源个数不得超过总数，且可以不分配资源，代表卸载到云服务器处理；

表示服务的时延敏感度必须为0到1之间的数；

b c

其中，N表示每个边缘计算设备中总共的信道数目，N表示每个边缘计算设备中总共的计算资源数。

4.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述步骤B中，基于各边缘计算设备内包括策略网络、价值网络，采用异步强化学习方法，即异步优势行动者‑评论家算法，各边缘计算设备针对预设时间段内对应预设区域中的各服务请求执行步骤B1至B4,分别对各边缘计算设备的服务卸载决策进行优化，直到模型收敛或达到预设迭代次数，得到各边缘计算设备分别一一对应的车辆服务卸载模型：步骤B1：边缘计算设备基于预设时间段内任意边缘计算设备中的第i个服务，结合该边缘计算设备中当前剩余资源，得到当前边缘计算设备状态，输入策略网络；

步骤B2：策略网络基于当前边缘计算设备状态，输出边缘计算设备服务卸载决策的概率分布，边缘计算设备基于策略网络输出的概率分布执行服务卸载决策，并为该服务分配信道和计算资源；

步骤B3：基于边缘计算设备执行服务卸载决策和对应的时延和能耗，得到当前服务卸载决策动作的即时奖励；

步骤B4：基于边缘计算设备执行服务卸载决策后，价值网络对当前边缘计算设备的状态价值进行评价。

5.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述价值网络以当前边缘计算设备状态为输入，当前边缘计算设备的状态价值为输出，采用多步时间差分误差来拟合目标模型，即经过n次交互得到的包含n次即时奖励的状态价值与边缘计算设备对当前状态的价值评价接近；以第i个服务si为起点，多步时间差分误差δi表示为：其中，n表示步数，γ为超参数，ri+j为环境为第i+j个服务的卸载决策取得的奖励，statei表示第i个服务卸载决策后边缘计算设备状态，V(statei)表示第i个服务卸载决策后边缘计算设备的状态价值。

6.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述策略网络以当前边缘计算设备状态为输入，以服务卸载决策的概率分布为输出，采用策略梯度算法引导边缘计算设备做出得到更高状态价值V(state)的决策，基于V(state)对于策略网络参数θ的梯度，采用梯度上升算法更新策略网络；

通过蒙特卡罗方法近似，V(s)对于策略网络参数θ的梯度表示为：其中，ai表示基于策略网络π输出的动作，δi为多步时间差分误差作为异步优势行动者‑评论家算法中优势函数的权重；

基于系统中采用的多动作‑单向量表示法，策略梯度改写为：

其中，为服务分配的信道数，为服务分配的计算资源数。

7.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述即时奖励ri为：ri＝esti‑b

其中,b是超参数；

esti表示为服务卸载决策的得分：

esti＝wi·δti+ζ·(1‑wi)·δei

其中，δti表示本地和卸载后服务所需时延的差值，δei表示本地和卸载后服务所需能耗的差值，ζ是时延‑能耗修正的超参数，wi表示服务的延迟敏感度。

8.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述各边缘计算设备中策略网络参数和价值网络参数的更新为将参数传递至云服务器中进行整合更新，再将云服务器的参数拷贝到对应的边缘计算设备中更新策略网络参数和价值网络参数。

9.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述边缘计算设备的服务卸载决策过程满足马尔可夫决策过程。