利索能及
我要发布
收藏
专利号: 2016102617062
申请人: 广东石油化工学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Q学习的混合云作业调度方法,其特征在于,使用多agent并行学习,即每个agent独立进行最优策略学习,当某个agent最先得到满足error<θ条件的策略时,就进行agent间的知识迁移,具体包括:定义Q学习的状态空间:将云环境资源池中活跃的虚拟机数量为状态空间;

定义Q学习中的动作集合A:动作集合中包括2个动作,分别为接受当前被调度作业和拒绝当前被调度作业;

定义系统的立即回报函数: 其中,jobi.ini表示作业执行的指令数,jobi.fsize表示作业大小,VMj.proc表示虚拟机处理速度,VMj.bw表示虚拟机带宽;

初始化Q(s,a),其中Q(s,a)为二维表格,行s为系统状态,列a为动作集合;

初始化系统状态S;

S3:迭代执行S31至S36:

S31:将s设置为当前状态;

S32:使用贪心策略从动作集合A中选择动作;

S33:执行所选择的动作,计算记录当前的回报函数,得到立即回报值r和下一个系统状态S’;

S34:按式Qt=Qt+α*(r+γ*Qt+1-Qt),更新Q(s,a),其中α∈(0,1)是学习速率,γ∈(0,1)是时间折扣因子,Qt指的是t时刻的Q值,即t时刻的Q(s,a);

S35:计算error=MAX(error|Qt-Qprevious-t),Qprevious-t指时刻t前一时刻的Q值;

S36:判断error<θ是否成立,若不成立则返回S31,若成立进行agent间的知识迁移,其中θ为固定比较值,根据需要设定。