买专利、卖专利、专利购买、专利交易、专利出售、高企申报-M2M通信中基于深度强化学习的资源调度方法及装置

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

M2M通信中基于深度强化学习的资源调度方法及装置

￥30000

专利号： 2020114627540

申请人：齐鲁工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种M2M通信中基于深度强化学习的资源调度方法，其特征在于，包括：建立TD‑LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像；

接收待处理的业务作业；

根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；

根据分配结果，对所述当前的资源映射状态进行调整；

根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源，具体包括：将所述当前的资源映射状态，以及所述待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作；

根据所述Q值最高的可执行的资源分配动作，向所述待处理的业务作业分配资源；

记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息，并计算对应的累积奖励；

所述累积奖励通过以下方式计算得到：其中，l∈集群中的所有机器，i1∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，αl、β、γ为预设参数；

接收待处理的业务作业，具体包括：接收待处理的业务作业；

确定不同业务分别对应的作业队列；

将接收到的待处理的业务作业放入相应业务的作业队列中。

2.根据权利要求1所述的方法，其特征在于，所述深度强化学习神经网络通过以下方式获得：

以卷积神经网络作为强化学习中的值函数；

将资源映射状态图与资源分配动作输入卷积神经网络中，提取所述资源映射状态图的特征，确定所述资源映射状态图、资源分配动作与对应的Q值之间的相关性。

3.根据权利要求2所述的方法，其特征在于，所述值函数为：Q(s,a)＝E[r+μmax(s′,a′)∣s,a]其中，s表示状态，a表示动作，r表示奖励，μ表示折扣因子。

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：从存储中随机抽取经验样本ek＝(sk，ak，rk，sk+1)，用于卷积神经网络的训练，其中，sk表示资源占用状态，ak表示资源分配动作，rk表示立即奖励，sk+1表示状态转换。

5.根据权利要求1所述的方法，其特征在于，确定不同业务分别对应的作业队列，具体包括：

针对不同业务，确定该业务对应的不同类型的作业方法、各作业方法对应的作业队列，以及各作业队列对应的权重；

向所述待处理的业务作业分配资源，具体包括：根据若干待处理的业务作业各自所在的业务队列的权重，确定向相应业务作业分配资源的优先级。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：若对应的作业队列已满，则将待处理的业务作业放入预设的动作空间中等待。

7.一种M2M通信中基于深度强化学习的资源调度装置，其特征在于，包括：建立模块，建立TD‑LTE系统模型，确定所述系统当前的资源映射状态，并将所述当前的资源映射状态转化为图像；

接收模块，接收待处理的业务作业；确定不同业务分别对应的作业队列；将接收到的待处理的业务作业放入相应业务的作业队列中分配模块，根据所述当前的资源映射状态，以及所述待处理的业务作业，通过预先训练好的深度强化学习神经网络，向所述待处理的业务作业分配资源；将所述当前的资源映射状态，以及所述待处理的业务作业输入深度强化学习神经网络中，从所有可执行的资源分配动作中，确定对应Q值最高的可执行的资源分配动作；根据所述Q值最高的可执行的资源分配动作，向所述待处理的业务作业分配资源；记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息，并计算对应的累积奖励；

调整模块，根据分配结果，对所述当前的资源映射状态进行调整；

所述累积奖励通过以下方式计算得到：其中，l∈集群中的所有机器，il∈所有计划的作业机器l，j∈队列中的所有业务作业，k∈队列中的所有作业积压，αl、β、γ为预设参数。