买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的资源智能联合优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的资源智能联合优化方法

￥31200

专利号： 2025103157101

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的资源智能联合优化方法，其特征在于，该方法包括如下步骤：步骤1：搭建通信网络拓扑，检测网络拓扑中的数据流量，记录链路的带宽，剩余带宽以及各个通信节点计算资源的使用情况；

步骤2：随机产生任务流T，在网络拓扑中模拟任务的解析以及发送；

步骤3：交换机接收任务流中的任务并解析数据分组头后，在自身流表中查询数据分组有无对应流规则，如果有对应的流规则，则直接将任务转发到流规则中设置的相应端口，否则寻找任务的n条简单路径；

步骤4：基于任务需要的最小传输速率以及节点和之间的链路为任务分配的传输速率，设置约束条件，从而在n条简单路径中筛选出候选路径；节点i和j为链路两端的节点，i=1,2,...,n; j=1,2,...,n，n表示节点的总个数；

步骤5：以总时延最小为目标，在候选路径中选择最优路径，并为最优路径分配最优计算资源和通信资源；

步骤6：将最优路径每条链路所分配的通信资源下发给交换机实现通信资源分配；

步骤4中的约束条件为：

；

其中，为节点和之间的链路的可用传输速率，为节点为任务分配的计算资源，为节点的可用计算资源，的表达式为：；

其中，为节点和之间的链路为任务分配的带宽，为节点和之间的链路为任务分配的传输功率；表示信道的背景噪声。

2.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法，其特征在于，步骤1中剩余带宽free_bw的计算公式如下所示：free_bw = capability – speed；

其中，capability代表链路总带宽，speed为流速。

3.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法，其特征在于，步骤3采用广度优先算法找到n条简单路径。

4.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法，其特征在于，步骤5采用D3QN算法在候选路径中选择最优路径，并为最优路径分配最优计算机资源和通信资源，具体为：设置目标函数：设置漏桶控制器，该漏桶控制器的容量为b，流体以每秒个单位的速率漏出；流体的速率峰值为，采用漏桶控制器计算任务的端到端时延界限：；

其中，为任务中最大包的大小；表示若，则，否则，表示路由器中所有任务流中最大数据包的长度，表示漏桶控制器中最大数据包的长度；

表示节点发送给节点的速率；表示所有链路中为任务分配的最小传输速率；

基于任务的端到端时延界限计算任务传输的总时延，将最小总时延作为目标函数：；

其中，为任务传输的总时延，为解析任务产生的时延，的表达式为：

；

其中，为节点为任务分配的计算资源，为节点的周期数，为任务需要计算的总数据量；

设置状态空间为：

；

其中，h表示当前时刻，M 表示任务的计算数据量序列，M ，其中表示任务的计算数据量，X表示任务的总个数，表示任务的最小所需传输速率序列，，表示任务所允许的最大端到端时延序列， , 表示任务所允许的最大端到端时延；表示当前时刻节点的可用计算资源序列，，表示当前时刻第i个节点的可用计算资源；表示可用传输速率序列，，为节点和之间的链路的

可用传输速率；

设置动作空间：

；

智能体在离散数值集合中选择一个数值赋值给，Y表示离散数值的总个数，表示预设的参数，示通信资表源的分配，当代表采用非均匀带宽分配算法求解通信资源，代表采用均匀分配算法求解通信资源；

设置奖励函数：

。

5.根据权利要求4所述的一种基于深度强化学习的资源智能联合优化方法，其特征在于，智能体采用贪婪学习策略在离散数值集合中选择一个数值赋值给。

6.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求

1‑5任一项所述的一种基于深度强化学习的资源智能联合优化方法。

7.一种计算机可读存储介质，用于存储程序，其特征在于，执行所述程序以实现权利要求1‑5任一项所述的一种基于深度强化学习的资源智能联合优化方法。