欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2020114627540
申请人: 齐鲁工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种M2M通信中基于深度强化学习的资源调度方法,其特征在于,包括:建立TD‑LTE系统模型,确定所述系统当前的资源映射状态,并将所述当前的资源映射状态转化为图像;

接收待处理的业务作业;

根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源;

根据分配结果,对所述当前的资源映射状态进行调整;

根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源,具体包括:将所述当前的资源映射状态,以及所述待处理的业务作业输入深度强化学习神经网络中,从所有可执行的资源分配动作中,确定对应Q值最高的可执行的资源分配动作;

根据所述Q值最高的可执行的资源分配动作,向所述待处理的业务作业分配资源;

记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息,并计算对应的累积奖励;

所述累积奖励通过以下方式计算得到:其中,l∈集群中的所有机器,i1∈所有计划的作业机器l,j∈队列中的所有业务作业,k∈队列中的所有作业积压,αl、β、γ为预设参数;

接收待处理的业务作业,具体包括:接收待处理的业务作业;

确定不同业务分别对应的作业队列;

将接收到的待处理的业务作业放入相应业务的作业队列中。

2.根据权利要求1所述的方法,其特征在于,所述深度强化学习神经网络通过以下方式获得:

以卷积神经网络作为强化学习中的值函数;

将资源映射状态图与资源分配动作输入卷积神经网络中,提取所述资源映射状态图的特征,确定所述资源映射状态图、资源分配动作与对应的Q值之间的相关性。

3.根据权利要求2所述的方法,其特征在于,所述值函数为:Q(s,a)=E[r+μmax(s′,a′)∣s,a]其中,s表示状态,a表示动作,r表示奖励,μ表示折扣因子。

4.根据权利要求2所述的方法,其特征在于,所述方法还包括:从存储中随机抽取经验样本ek=(sk,ak,rk,sk+1),用于卷积神经网络的训练,其中,sk表示资源占用状态,ak表示资源分配动作,rk表示立即奖励,sk+1表示状态转换。

5.根据权利要求1所述的方法,其特征在于,确定不同业务分别对应的作业队列,具体包括:

针对不同业务,确定该业务对应的不同类型的作业方法、各作业方法对应的作业队列,以及各作业队列对应的权重;

向所述待处理的业务作业分配资源,具体包括:根据若干待处理的业务作业各自所在的业务队列的权重,确定向相应业务作业分配资源的优先级。

6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若对应的作业队列已满,则将待处理的业务作业放入预设的动作空间中等待。

7.一种M2M通信中基于深度强化学习的资源调度装置,其特征在于,包括:建立模块,建立TD‑LTE系统模型,确定所述系统当前的资源映射状态,并将所述当前的资源映射状态转化为图像;

接收模块,接收待处理的业务作业;确定不同业务分别对应的作业队列;将接收到的待处理的业务作业放入相应业务的作业队列中分配模块,根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源;将所述当前的资源映射状态,以及所述待处理的业务作业输入深度强化学习神经网络中,从所有可执行的资源分配动作中,确定对应Q值最高的可执行的资源分配动作;根据所述Q值最高的可执行的资源分配动作,向所述待处理的业务作业分配资源;记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息,并计算对应的累积奖励;

调整模块,根据分配结果,对所述当前的资源映射状态进行调整;

所述累积奖励通过以下方式计算得到:其中,l∈集群中的所有机器,il∈所有计划的作业机器l,j∈队列中的所有业务作业,k∈队列中的所有作业积压,αl、β、γ为预设参数。