1.一种服务质量保障的在线资源调度方法,其特征在于:具体包括以下步骤:S1:全局QoS评估:结合任务请求情况、微服务部署情况设定任务调度矩阵,并据此对响应时延进行细粒度分析,构建不同应用在时间范围T内的长期平均响应时延模型;结合任务的实时性需求,获取网络吞吐量,联合长期平均响应时延和吞吐量建立QoS评估模型;
S2:长期协作调度:根据ES的任务调度模式和网络QoS建立协同任务调度模型;采用MDP模型对长期连续调度过程进行分析,同时将每个ES视为智能体,智能体之间采用合作博弈模式进行协作决策;
S3:多智能体协作学习:采用双向协调网络BiCNet构建合作通信层,并利用Actor‑Critic网络进行智能体和环境的交互,将全局QoS作为每个智能体的奖励,通过对策略和价值的迭代学习获取全局最优解,最后构建协同调度双向协调网络算法实现整体任务调度流程。
2.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S1具体包括以下步骤:S11:假设时隙t内用户产生的请求集为 为请求的种类数;请求k由一个四元组表示为 其中, 表示请求所需的微服务类型, 表示请求的任务数据大小,ζk表示请求的时延容忍阈值, 表示处理完成后的结果数据大小;时隙t内ESi内用户发出的请求k的数量为定义时隙t的调度方案为et=[ek,i,j]K×V×V,其中,et是一个K×V×V的三维矩阵,矩阵中的元素ek,i,j表示由ESi调度到ESj的请求k的数量,是一个大于等于零的自然数,其满足约束S12:根据实际任务调度过程,用户首先将请求上传给最近的ES节点,每个ES接收到当前时隙的所有请求之后,进行ES之间的协作任务调度,完成调度之后,每个ES按照调度结果将相应的任务发送到对应的ES中;对于无法处理的任务,将其发送到远程云,由远程云进行处理;任务在微服务处进行并行处理;任务处理完成后,将结果数据传输回原ES节点,并传送回用户;
S13:协同任务调度的目标是从长期的角度,最大化满足时延容忍阈值的任务数,并进一步最小化任务的ATRL;
对于请求k,如果其ATRL超过了时延容忍阈值ζk,则任务将中断;反之,任务将视为已完成,网络吞吐量增加;则时隙t内的网络吞吐量表示为:在整个时间范围T内,网络中平均每时隙的吞吐量表示为:S14:主目标是最大化整个时间范围内的吞吐量,同时在此基础上最小化ATRL,则由此构建的QoS评估指标表示为:式中,σ为权重因子;令e=[e1,e2,...,et,...,eT]为整个时间序列上的调度决策,则协同任务调度问题CTSP表示为:s.t.C1:
C2:
式中, 表示远程云和所有ES节点组成的节点集, 表示自然数集合。
3.根据权利要求2所述的服务质量保障的在线资源调度方法,其特征在于:步骤S12中,定义各阶段的时延如下:任务上传时延描述为上传任务数据大小与数据传输速率的比值,用户到ES之间的无线传输速率由香农公式计算得出;用wi表示ESi的无线信道带宽,SNRi表示信噪比,则ESi内请求k的任务上传时延为:任务上传到ES之后,ES按照调度结果进行任务传输,如果j=0,则代表任务传输到远程云进行处理,用Bi,j表示ESi和ESj之间的链路传输带宽,则调度时延为:完成调度之后,需要对任务进行处理;定义μk为处理请求k的微服务的任务处理速率,hk,j和yk,j分别为ESj上当前时隙的微服务k的剩余资源量和处理任务的资源使用量;yk,j满足约束式:
0<yk,j≤hk,j
如果邻居ES中没有所需微服务,则将任务调度到远程云中处理,即j=0;用V表示网络中ES数量,则在并行处理的过程下,任务的处理时延表示为:任务处理完毕,将任务的处理结果传回原ES节点,回传时延为:最后,用户下载ES节点的处理结果产生一个下载时延表示为:则在时隙t内,由ESi调度到ESj的请求k的协同处理总时延表示为:如果ES上没有所需的微服务,则任务需要调度到远程云中处理,即j=0,上述过程完全不变;如果从长期的角度考虑所有请求,那么K种请求在时间范围T内的长期平均任务响应时延ATRL表示为:
4.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S2具体包括以下步骤:S21:采用一个元组 描述协同任务调度的博弈模型; 表示当前博弈的状态空间,由所有智能体共享;时隙t的网络状态表示为 其中,t
为时隙t初始时网络的请求情况,h =[h1,1,h1,2,...,hk,i,...,hK,V]为时隙t初始时所有ES的剩余微服务资源;ESi决策的动作空间表示为为ESi在时隙t的动作; 表示状态转移
函数; 表示ESi的奖励函数;
S22:对于ESj上的微服务k,定义第d组正在被占用的资源由一个二元组 表ooc
示, 表示占用资源量, 表示剩余占用时间;令ψ 表示占用资源的集合,则当前时隙开始时,资源使用量yk,j将被放入占用资源集合 同时更新所有占用资源的剩余时间:
则下一时隙开始时ESj上的微服务k的剩余资源量表示为:S23:每个ES通过观察当前时刻的环境状态做出自己的调度决策,并得到一个奖励值,则网络全局奖励由所有ES的奖励值的平均值来定义,表示为:t t t
式中,r表示在状态s 下,所有智能体采用动作a后全局网络得t t t
到的奖励值,通过每个智能体i获得的奖励ri (s ,a)平均值来描述;V表示智能体的个数,等于ES数量;ES全局优化的目的是通过学习来最大化整个时间范围内的折扣奖励期望t其中,0≤δ<1为折扣因子;因此网络在每个时刻的目的就是最大化状态s 下t *采用动作a的动作价值函数Q,表示为:
全局奖励函数反映出全体ES合作博弈的整体
结果,这需要由每个ES的奖励值来共同决定,同时每个ES通过自身的奖励值来决定如何进行协同调度;
S24:根据步骤S11,ESi的奖励值计算为:t t t t
式中,ri (s ,a )表示在状态s下,
t
全局网络采用动作a后ESi得到的奖励值,由平均吞吐量和ATRL共同决定;则V个ES对应的动作价值函数表示为:通过将ES的奖励值作为ES的动作反馈来
进行训练,在一定的学习训练之后,每个ES形成自己的决策模式,在每一时刻,ES通过在决策模式中找到最有利于全局最优的调度决策。
5.根据权利要求1所述的服务质量保障的在线资源调度方法,其特征在于:所述步骤S3具体包括以下步骤:S31:首先将原始网络展开为由V个子节点组成的网络,并使用时间反向传播来计算反向梯度,对双向协调网络BiCNet进行参数学习;通过将所有智能体的奖励梯度传递到BiCNet网络中以指导智能体的策略,同时通过通信层的反向传播进一步更新BiCNet网络参数θ,对BiCNet网络进行训练;每个智能体的目标为最大化奖励ri的期望总和state其中, 表示由状态转移函数F 得到的动作aθ的状态分布,多智能体的目标为:
由确定性策略梯度定理可知,参数θ对应的策略梯
度表示为:
采用确定性非策略Actor‑Critic算法
进行建模;利用一个Critic函数来估计非策略探索的动作值 采用平方和损失函数来训练Critic网络,参数化的Critic梯度为 则参数ξ对应的梯度表示为:最后,根据参数θ对应的策略梯度和参数ξ对应的梯度,采用随机梯度下降法来迭代优化Actor‑Critic网络;
S32:基于上述分析,构建协同调度双向协调网络算法(Cooperative Scheduling Bidirectionally‑Coordinated Nets,CS‑BiCNet),具体步骤如下:初始化模型:首先在有效范围内对Actor在线网络参数θ和Critic在线网络参数ξ进行随机取值,并根据θ和ξ确定目标网络参数的初始值,即θ′←θ和ξ′←ξ;初始化经验回放池初始化随机过程ε,以确定动作值;
执行策略:记录训练开始时每个ES的剩余资源状态以及网络请求情况,将其合并为MECt t t网络初始状态s;根据网络初始状态s 和随机过程ε生成一个策略动作a=a(s)+ε,执行完t+1 t所有ES的动作之后,更新状态s =s(a ),并根据步骤S14中所述的QoS评估指标计算奖励值,将状态转移 作为经验数据存储到经验回放池 中;
计算梯度估计:从经验回放池 中小批量采样M条数据,并计算出第m条数据中第i个ES的目标价值 表示为:同时根据参数θ对应的策略梯度计算Actor网络的策略梯度,表示为:
根据参数ξ对应的梯度计算Critic网络
的价值梯度,表示为:
更新目标网络:获得梯度▽θ
和▽ξ后,采用Adam优化器按照梯度下降法更新在线网络参数θ和ξ,并根据在线网络参数更新目标网络参数,表示为:θ′=β·θ+(1‑β)·θ′,ξ′=β·ξ+(1‑β)·ξ′式中,β∈(0,1)为学习因子。