1.一种基于深度强化学习的资源智能联合优化方法,其特征在于,该方法包括如下步骤:步骤1:搭建通信网络拓扑,检测网络拓扑中的数据流量,记录链路的带宽,剩余带宽以及各个通信节点计算资源的使用情况;
步骤2:随机产生任务流T,在网络拓扑中模拟任务的解析以及发送;
步骤3:交换机接收任务流中的任务 并解析数据分组头后,在自身流表中查询数据分组有无对应流规则,如果有对应的流规则,则直接将任务转发到流规则中设置的相应端口,否则寻找任务的n条简单路径;
步骤4:基于任务 需要的最小传输速率 以及节点 和 之间的链路为任务 分配的传输速率 ,设置约束条件,从而在n条简单路径中筛选出候选路径;节点i和j为链路两端的节点,i=1,2,...,n; j=1,2,...,n,n表示节点的总个数;
步骤5:以总时延最小为目标,在候选路径中选择最优路径,并为最优路径分配最优计算资源和通信资源;
步骤6:将最优路径每条链路所分配的通信资源下发给交换机实现通信资源分配;
步骤4中的约束条件为:
;
其中, 为节点 和 之间的链路的可用传输速率, 为节点 为任务 分配的计算资源, 为节点 的可用计算资源, 的表达式为:;
其中, 为节点 和 之间的链路为任务 分配的带宽, 为节点 和 之间的链路为任务 分配的传输功率;表示信道的背景噪声。
2.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法,其特征在于,步骤1中剩余带宽free_bw的计算公式如下所示:free_bw = capability – speed;
其中,capability代表链路总带宽,speed为流速。
3.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法,其特征在于,步骤3采用广度优先算法找到n条简单路径。
4.根据权利要求1所述的一种基于深度强化学习的资源智能联合优化方法,其特征在于,步骤5采用D3QN算法在候选路径中选择最优路径,并为最优路径分配最优计算机资源和通信资源,具体为:设置目标函数:设置漏桶控制器,该漏桶控制器的容量为b,流体以每秒 个单位的速率漏出;流体的速率峰值为 ,采用漏桶控制器计算任务 的端到端时延界限 :;
其中, 为任务 中最大包的大小; 表示若 ,则 ,否则 ,表示路由器中所有任务流中最大数据包的长度, 表示漏桶控制器中最大数据包的长度;
表示节点 发送给节点 的速率; 表示所有链路中为任务 分配的最小传输速率;
基于任务 的端到端时延界限 计算任务传输的总时延,将最小总时延作为目标函数:;
其中, 为任务传输的总时延, 为解析任务 产生的时延, 的表达式为:
;
其中, 为节点 为任务 分配的计算资源, 为节点 的 周期数, 为任务需要计算的总数据量;
设置状态空间 为:
;
其中,h表示当前时刻,M 表示任务的计算数据量序列,M ,其中 表示任务 的计算数据量,X表示任务的总个数, 表示任务的最小所需传输速率序列, , 表示任务所允许的最大端到端时延序列, , 表示任务 所允许的最大端到端时延;表示当前时刻节点的可用计算资源序列, , 表示当前时刻第i个节点的可用计算资源; 表示可用传输速率序列,, 为节点 和 之间的链路的
可用传输速率;
设置动作空间 :
;
智能体在离散数值集合 中选择一个数值赋值给 ,Y表示离散数值的总个数,表示预设的参数,示通信资表源的分配,当 代表采用非均匀带宽分配算法求解通信资源, 代表采用均匀分配算法求解通信资源;
设置奖励函数:
。
5.根据权利要求4所述的一种基于深度强化学习的资源智能联合优化方法,其特征在于,智能体采用贪婪学习策略在离散数值集合中选择一个数值赋值给 。
6.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求
1‑5任一项所述的一种基于深度强化学习的资源智能联合优化方法。
7.一种计算机可读存储介质,用于存储程序,其特征在于,执行所述程序以实现权利要求1‑5任一项所述的一种基于深度强化学习的资源智能联合优化方法。