利索能及
我要发布
收藏
专利号: 2022109217600
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于轻量级学习的实时服务迁移方法,其特征在于,包括以下步骤:

1)构建动态边缘网络模型;根据基础设施的通信能力划分区域,一个区域包含服务提供者和服务请求者,设定服务迁移在离散的时隙中执行,用户终端在用作服务请求者的同时也可以用作服务提供者,服务请求者生成的服务设定为可以部分迁移到其他设备上执行,服务的迁移执行过程分为输入、执行和输出三个步,服务请求者将迁移的部分分解为本地执行和迁移执行两个部分并行执行,以分散工作负载来提高工作效率降低成本;

2)分解服务迁移问题;将服务时延和迁移支付费用分别作为服务协作迁移性能和成本的指标,构建双目标优化问题P1为:其中 表示执行时隙长度,αij(t)表示服务迁移设备决策变量,βijh(t)表示服务数据包获取决策变量,γi(t)为服务迁移率决策变量,Ti(t)为设备执行时隙,Pi(t)为资源租赁费用,S为待执行的服务请求总数,P1约束于C6:γi(t)∈[0,1],

约束C1确保服务的执行时延不能超过其可容忍的时延,以保证用户的体验质量,其中Ti(t)为服务执行时延, 为Ki类服务的可容忍时延;约束C2保证每个服务的迁移部分都需要在可通信的时间内完成,其中 为服务迁移执行时延, 为两设备间可通信时延;约束C3确保每个服务提供者不应耗尽其剩余能量,以防止因能量耗尽导致服务中断,其中 为设备剩余能量, 为执行能耗,Di(t)和 分别表示设备和设ch

备集合;约束C4限定了设备与基础设施的通信能力上限,αij(t)为设备迁移决策变量,R(t)为信道数量上限;约束C5约束了二元决策变量取值,αij(t)和βijh(t)分别为设备迁移和服务数据包获取方式的决策变量,nt为设备总数;C6说明了服务迁移率γi(t)的取值范围,约束C7说明当迁移率γi(t)=0时,没有服务提供者提供协作时,即

3)基础设施基于观测到的全局状态做出最优匹配策略,将优化问题P1分解为两个子问题P4和P5如下:受C3‑C5约束;Ui(t)表示最优成本,受C1,C2,C7约束; 为设备的实际执行时延;

4)将专家数据集传给智能体以供智能体基于模仿学习训练智能体策略,具体包括:步骤4.1):

在一个更新轮次内的每个时隙初,首先初始化设备的匹配次数Dj(t).visit和服务的匹配次数Si(t).visit为0,其中 而后初始化每个设备的偏好值为0,即 并初始化调整参数 为∞;

步骤4.2):

对于每个服务请求,首先获取在每个迁移设备上执行的最优迁移率,根据得到的匹配决策αij(t)和βijh(t),迁移率的下限 为:其中 为Ki服务的可容忍时延, 为本地获取数据包时延,为本地计算时延,当 时,迁移率的上限 为:其中 为两设备间可通信时延, 为通信等待时延, 为数据包获取时延, 为通信时延, 为计算时延,当 时,迁移率的上限 为:

其中 为服务的可容忍时延, 为通信等待时延, 为数据包获取时延, 为通信时延, 为计算时延,由于最优时延为本地时延和迁移时延相等时,因此,最优迁移率 可以表示为:

其中 为本地获取数据包时延, 为本地计算时延, 为迁移执行时延, 为数据包获取时延, 为通信时延, 为计算时延,表示任务的实际执行时延;

若 γi(t)=0,且

迁移率获取如下:

步骤4.3):

对于每一个尝试的迁移设备,如果约束C1‑C7被满足,则将效益Uij(t)降序添加到服务Si(t)的偏好列表中,否则将γi(t)=0时的效益Uij(t)添加到偏好列表中;基于所有的偏好值获得每个服务请求的优先值 为所有服务的最大偏好值;

步骤4.4):

对于服务请求集合中的服务Si(t)对设备集合 执行匹配操作,具体执行过程如下:从集合 中为Si(t)找到合适的执行设备的匹配过程,定义一个期望值Uij(t)为 和之和,如果满足 则Si(t)将迁移到设备Dj(t)并返回匹配结果,否则,匹配调整参数Δj(t)则需要更新为其中 为服务Si(t)的偏好值, 为设备Dj(t)的偏好值,Uij(t)为期望值;

步骤4.5):

如果步骤4.4)中未返回到匹配结果,则执行更新操来更新调整变量列表,对于之前没有匹配过的设备 调整因子更新为min{δ,Δj(t)},其中δ为调整因子初始化为∞,Δj(t)为调整变量,将所有访问过的服务的偏好值调整为 调整所有设备的偏好值调整为 并将所有的调整变量Δj(t)更新为Δj(t)‑δ;

5)智能体基于专家数据集训练智能体策略,并基于元学习策略,加速更新模型过程,从而摆脱传统神经网络的学习成本降低传统学习负载,设定d个时隙为一个更新周期,每个更新周期将更新专家轨迹数据集并将其提供给分布式智能体以学习,每个设备都需要根据可观察到的信息独立学习策略并独立更新策略,以确保策略的准确性;

智能体策略的更新步骤如下:

步骤5.1):

获得初始专家演示数据集ε0和专家策略 后,每个智能体通过训练神经网络获得初始智能体模型,代理网络根据观察到的状态估计动作 并根据损失函数拟合观察到的状态和e估计的动作分布 与专家策略π(a,s)来训练其策略,损失函数 如下:e

其中 表示智能体策略,π (a|s)表示专家策略,a表示实际动作,s表示观测状态,表示预测动作, 表示冻结参数,θ0表示初始参数, 表示求期望;因此,参数的更新过程为:其中ιb表示基础学习器的学习率, 表示损失函数 的梯度;

步骤5.2):

在更新周期 中, 表示更新周期集合,智能体获得了部分更新的专家轨迹εl,利用元学习来记录模型迁移的缩放和转换,周期l中的元学习参数表示为ωl,元学习过程将转换为 通过得到ωl,元学习的目标是使 近似

步骤5.3):

在完成第l次智能体训练后,分布式智能体根据策略 基于观察到的状态做出迁移决策,直到他进入其他基础设施的覆盖范围或直到第(l+1)个更新周期,智能体重复步骤5.2进行更新;

智能体的元更新包含两个子阶段,即基础学习器训练和元学习器训练;在第l周期,从数据集中随机抽取专家轨迹εe,l,然后采样 条数据来训练基础学习模型,采样 来训练元模型学习,且 临时参数θ′l由l‑1周期的参数θl‑1初始化得到,并用于微调,更新为:其中ιb为基础学习器的学习率, 为求基础学习器的损失函数梯度, 为冻结参数,θl‑1为周期l‑1的参数,ωl‑1为元学习器参数;因此元学习器的参数ωl更新为:其中ιm为元学习器的学习率, 为求元学习器的损失函数梯度, 为冻结参数,θ′l为临时参数,ωl‑1为l‑1周期的元学习器参数;因此智能体参数θl可以更新为:其中ιm为元学习器的学习率, 为求元学习器的损失函数梯度,为冻结参数,θ′l为临时参数,ωl为l周期的元学习器参数。

2.根据权利要求1所述一种基于轻量级学习的实时服务迁移方法,其特征在于:步骤1)具体包括构建服务时延和迁移支付费用;

1.1所述服务时延为, 其中 为本地执行时延, 为迁移执行时延;

为本地计算时延, 为本地下载时延;

所述迁移执行时延为,

其中 为两设备的通信时延, 为设备的计算时延, 为服务所需数据包的获取时延;

1.2所述迁移支付费用计算过程如下:

计算资源的租用单价 随状态Dj(t)变化,其定义为:其中参数κ代表价格系数,用于调整可用计算能力 和剩余能量 对单位租金的影响;

租金函数 计算方式如下:

comp

其中R (t)为基础设施可用计算资源,1表示剩余可用能量始终充足,κ为价格因子,因此,相应的能耗 计算为comp

其中γi(t)为服务Si(t)的迁移率, 为本地计算时延,e 为计算单位耗down

能百分比, 为本地下载时延,e 为下载单位耗能百分比, 为通信时comm

延,e 为通信单位耗能百分比。