利索能及
我要发布
收藏
专利号: 2020115788840
申请人: 广东石油化工学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的云作业调度方法,其特征在于,包括:接收用户发送的用户作业;

对用户作业进行解耦,获取就绪作业集;

通过作业调度器对就绪作业集进行调度;所述调度为按照调度策略采取动作,将就绪作业集中的作业部署到相应的虚拟机上;所述动作为就绪作业集中的作业的虚拟机分配方式;

通过虚拟机执行作业,并且返回执行结果;

收集训练样本,建立经验池;所述训练样本用于存储就绪作业集状态、虚拟机状态、动作和回报值;所述回报值为采取动作获得的回报;

判断经验池内的训练样本数量是否小于阈值,若小于阈值则重新接收用户发送的用户作业,否则利用经验池中的训练样本优化作业调度器;

利用优化后的作业调度器进行调度。

2.根据权利要求1所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述调度的目标函数为:

所述J为用户作业;所述π为调度策略;所述 为第k个用户的第i个作业;所述 为第k个用户的第i个作业的完工时间。

3.根据权利要求2所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述所述 所述 为作业 传输到

k

虚拟机的数据量;所述L (i)为作业 的长度;所述 为作业 被执行后返回执行结果的数据量;所述 为作业 的执行时间;所述 为作业 的传输时间;所述 为作业的等待时间;所述等待时间为在通过作业调度器对就绪作业集进行调度之后,通过虚拟机执行作业,并且返回执行结果之前,虚拟机计算能力不足,被调度的作业进入虚拟机等待队列等待被执行的时间。

4.根据权利要求3所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述所述 为分配给作业 的MIPS;所述c为兆字节到字节的转换系数;所述p为虚拟机完成每单位长度作业的CPU周期;所述 所述 为作业 向虚拟机传输数据的时间;所述 为作业 被执行后,返回处理结果的传输时间;所述 所述Jj为第j个作业;所述q为等待队列中作业 之前所有作业的集合;所述tj,e为第j个作业的执行时间。

5.根据权利要求4所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述所述 所述作业 的传输数据量为 所述 为虚拟机分配给每个作业的带宽资源。

6.根据权利要求5所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述所述b为虚拟机的带宽资源;所述 为在时隙T传输到虚拟机的作业数。

7.根据权利要求6所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述训练样本为(St,α,r,St+1);所述就绪作业集状态为SJ={t1,d1,t2,d2,……,tn,dn};所述虚拟机状态为 所述动作由动作空间A存储,A={α1,α2,……,αn};所述回报值由回报函数R计算, 所述St和St+1分别为时间步t和时间步t+1的状态;所述状态由状态空间S存储,S={SJ,SVM};所述α为时间步t从动作空间A中选取的动作;所述r为时间步t回报函数R计算的回报值;所述就绪作业集状态SJ中的ti和di,分别表示就绪作业集中第i个作业的执行时间和传输到虚拟机的数据量;

所述n为就绪作业集的作业数量;所述虚拟机状态SVM中的 和 分别表示当前时间步第x个虚拟机中剩余的计算能力和等待执行的作业数量;所述m为虚拟机的数量;所述动作空间A中的动作αi表示就绪作业集中第i个作业的虚拟机分配方式;所述动作αi的可选项为m+1;所述 和 分别为第x个虚拟机已执行的作业数量和等待执行的作业数量。

8.根据权利要求上7所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述优化作业调度器的目标函数为:所述γ为折扣因子,γ∈[0,1]。

9.根据权利要求上8所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述优化作业调度器的损失函数为:所述θz为第z次迭代后的作业调度器参数;所述S′为下一个时间步的S;所述D(M)为经验池D每次抽取样本数M;所述α′为S′对应最大Q值的动作;所述 为优化第z次迭代后的作业调度器的参数。

10.根据权利要求上9所述的一种基于深度强化学习的云作业调度方法,其特征在于,所述参数θ关于损失函数的梯度为: