利索能及
我要发布
收藏
专利号: 2021114927446
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-04-09
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,包括以下步骤:S1,根据用户任务所处服务器位置、用户当前所处区域位置以及当前处理任务的服务器负载构建奖励函数;

S2,根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵;

S3,根据所述奖励函数和所述状态转移矩阵,使用价值迭代算法进行迁移决策制定;

S4,根据路由之间的时延消耗和网络消耗做规范化处理来赋值链路消耗;

S5,根据规范化后的链路消耗,使用Sarsa强化学习算法进行路径选择并自适应地更新链路选择以适应动态网络的链路变化;

所述根据用户任务所处服务器位置、用户当前所处区域位置以及处理任务服务器负载构建奖励函数,具体包括:(S11)使用用户距离处理任务服务器的距离dt和处理任务服务器的负载ht构建用户服务满意度函数;

(S12)使用用户距离处理任务服务器的距离dt构建迁移消耗函数;

(S13)使用服务满意度函数和迁移消耗函数的加权和作为奖励函数;

所述使用用户距离处理任务服务器的距离和处理任务服务器的负载构建用户满意度c1(st,at),具体公式为:c1(st,at)=D‑μ1dt‑μ2ht

其中,D表示用户能够获得最大服务满意度,dt表示用户t时刻距离处理任务服务器的距离,ht表示t时刻处理任务的服务器负载情况,μ1和μ2是比例系数,表示距离和负载对于用户服务满意度的影响程度;dt通过计算用户当前位置lt=(xt,yt)与处理任务服务器位置ls=(xs,ys)的欧式距离获得;

使用用户距离处理任务服务器的距离dt构建迁移消耗函数c2(st,at):c2(st,at)=μ3+μ4dt

其中,使用距离dt的线性函数表示迁移消耗,μ3表示常数消耗,μ4表示距离的影响系数;

使用用户服务满意度函数和迁移消耗函数的加权和作为奖励函数r(s,a):其中,a表示迁移决策,a=0表示不进行迁移,a=1表示进行迁移;

dmax表示任务被处理所允许的最大距离,超出该距离会有极大的惩罚M;

所述根据用户当前所处位置,之前移动方向以及迁移决策构建状态转移矩阵,包括:(S21)记录用户当前所处位置以及用户前一时刻移动方向;

(S22)不同的移动方向会对用户接下来的移动轨迹产生影响,用户的移动模型为用户有较大的概率不改变方向,较小的概率改变方向;

(S23)基于用户的移动模型与迁移决策,决定下一时刻用户的状态;

所述记录用户前一时刻移动方向zt,使用用户当前所处位置lt与之前移动方向zt表示用户目前状态st=(xt,yt,zt);

所述不同的移动方向zt会对用户接下来的移动轨迹产生影响,用户在下一时序有较大的概率p保持移动方向zt不变并到达位置 同时,用户在下一时序有较小的概率改变移动方向为 或 并到达位置 或基于用户的移动模型与迁移决策,确定状态转移概率P(s'|s,a):其中, 表示在迁移后用户与处理任务的服务器处于同一位置;

表示迁移后用户移动方向不变,同时不迁移时有p的概率用户移动方向不变;

根据所述奖励函数和所述状态转移矩阵,使用价值迭代算法进行迁移决策制定,包括:(S31)随机初始化用户在不同位置不同移动方向下的状态价值函数v(s);

(S32)基于贝尔曼最优方程使用上一迭代周期的状态价值函数值更新下一迭代周期的状态价值函数值,具体公式为:其中,vk+1(s)表示第k+1个迭代周期状态s所对应的状态价值函数, 表示状态s选取动作a所获得的奖励, 表示状态s选取动作a到达状态s'的概率,vk(s')表示第k个迭代周期状态s'所对应的状态价值函数;

(S33)重复步骤(S32),直至不同位置不同方向下的状态价值函数均收敛;

所述根据路由之间的时延消耗t和网络消耗p做规范化处理来赋值链路消耗c的方法包括步骤:记录链路中传输所需要的时延消耗t以及网络消耗p;

对二者进行均一化处理后加权求和赋值链路消耗c:ci=ωtti+ωppi

其中,ti和pi表示每条链路对应时延消耗和网络消耗, 表示链路时延消耗的最小值, 表示链路时延消耗的最大值, 表示链路网络消耗的最小值,表示链路网络消耗的最大值;ωt和ωp分别表示时延消耗与网络消耗的加权系数。

2.根据权利要求1所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述使用Sarsa强化学习选择迁移路径的方法包括:(1)随机初始化各路由所连接的链路信息,包括时延消耗t和网络消耗p;

(2)从原服务器至目标服务器的数据信息随机选择路径传输;

(3)记录数据传输过程中产生的时延消耗t以及产生的网络消耗p,并将其进行标准化后加权求得对应链路消耗c;

(4)各路由根据ε贪婪策略选取数据传输的链路,同时记录选择该链路传输至下一路由的链路消耗,各路由根据本次数据的传输更新其对应的状态动作Q值表;

(5)伴随数据的传输,各个路由重复步骤(4),进行本路由Q值表的动态更新并选择更优化的路径。

3.根据权利要求2所述的一种移动边缘计算中基于强化学习的服务迁移方法,其特征在于,所述使用ε贪婪策略选取动作方式和状态动作Q值表更新方式分别为:Q(S,A)←Q(S,A)+α(R+γQ(S',A')‑Q(S,A))*

其中,π(a|s)表示在状态s下选取动作a的概率,a表示当前状态s下能够使得Q值最大的动作,m表示可供选择的动作个数,Q(S,A)表示各个状态下选取不同动作对应的状态动作函数值,α是学习速率参数,γ是衰减因子,Q(S',A')表示下一状态对应的状态动作函数值。