1.一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:包含基于图神经网络的资源协同调度应用场景,所述基于图神经网络的资源协同调度应用场景包含云‑边‑端协同计算网络环境以及智能体和网络节点通信与计算环境;
当终端向算力网络发出服务请求,智能体将与云端计算服务器集群和边缘设备集合交互以分配适合的计算节点;
所述智能体和网络节点通信与计算环境包含智能体根据接收到的服务请求,评估当前网络节点的资源状态,包括可用资源容量、网络带宽、网络延迟;利用图神经网络GNN结合网络资源的实时状态和服务请求的要求,计算最优资源分配方案发送指令到方案涉及到的计算节点,接收到指令的计算节点将反馈资源的实际使用情况,图神经网络GNN将根据接收到的反馈信息更新当前网络状态信息,智能体获得新的网络状态信息调整资源分配方案;
包括:
步骤1,采用图神经网络GNN中的消息传递神经网络MPNN框架对网络环境进行建模;并通过消息传递神经网络MPNN获取图的状态信息;
步骤2,通过DDPG算法获取资源分配方案;
步骤3,智能体在每个决策时刻,根据当前网络环境状态和服务请求的需求,使用DDPG算法来确定最优资源分配策略,根据确定的最佳策略为任务分配的资源;
步骤4,在资源分配后,智能体将持续监控系统的运行状态和性能收集反馈信息,并根据反馈信息对资源分配策略进行调整。
2.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤1中,建立的图结构框架中的节点代表网络中的各个实体,包含计算节点、服务器、终端设备,而边则表示这些实体之间的连接与交互关系算力。
3.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤2中,DDPG算法由两个核心部分组成:用于决策的Actor网络和用于评估价值的Critic网络;使用双重神经网络架构即当前网络和目标网络,即DDPG实际上引入了四个网络,用于做出决策和价值评估;Actor网络和Critic网络四种网络的具体分工如下所示:
1)Actor当前网络的目的是根据当前的网络状态信息st进行决策以选择当前动作at;与网络环境交互更新网络状态信息得到新的状态st+1和奖励Rt;Actor当前网络的输入为网络环境的状态信息st,选择时间步数为t时的动作;
2)Actor目标网络的目的是根据经验回放池中采样的下一状态st+1,选择最优的下一动作at+1;网络状态信息定期从Actor当前网络中得到;Actor目标网络的输入包括经验回放池里的经验以及从Actor当前网络复制的网络状态信息;
3)Critic当前网络的主要职责是评估当前状态的价值,根据Actor当前网络选择的动作和环境反馈的奖励,计算目标Q值,作为动作选择的依据;该网络通过迭代更新价值网络Q参数θ,优化价值评估的准确性;
Q
4)Critic目标网络用于评估计算下一时刻的状态‑动作的Q值函数,网络参数θ ′定期利Q用Critic当前网络的参数θ 进行更新,用于生成更准确的目标价值评估,帮助优化整个网络的性能。
4.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤3中,最优分配资源策略实现包括:通过GNN获取状态信息;智能体获得最优分配策略;智能体分配资源并持续监控系统状态信息。
5.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤3中,通过GNN获取状态信息,具体如下:网络环境本质上就具备图结构特性,其中节点代表网络中的各个实体,包含计算节点、服务器、终端设备,而边则表示这些实体之间的连接与交互关系;即网络拓扑可定义为G=(V,E),其中V={vi|i=1,2,...,n}表示网络实体的集合, 代表实体之间的关系;采用GNN中的消息传递神经网络框架对网络环境进行有效建模;MPNN的前向传播分为信息传递阶段和读取阶段两个阶段:
1)当信息传递阶段操作t个时间步,每个节点vi根据其邻居节点vj和其自身的隐藏状态t以及二者之间的边缘特征 通过消息传递函数φ 生成vi在t+1时间步接收到的消息其中 为节点vi在t时间步数的隐藏状态;接收到消息t
后vi将根据自身隐藏状态 和消息 利用更新函数U得到自身在t+1时间步数的隐藏状态
2)在信息传递完成后,在读取阶段根据节点vi当前的隐藏状态 使用读取函数R计算整个图的特征向量 表示了当前待决策任务决策步骤的状态st;
其中,节点隐藏状态 为在MPNN框架中描述节点特征的向量;计算资源
用b5到b8表示,包括为服务请求分配的计算类型、计算能耗、可用资源容量和节点;
在DDPG算法中环境执行对应的动作后需要返回当前动作的奖励,考虑优化计算资源与网络资源,以达到资源均衡将奖励函数设计为:Rt(st,at)=ι·Utilization(st,at)+α·Efficiency(st,at)+β·Balance(st,at);
其中, 表示由于执行动作at产生的计算资源利用率
UC,t与网络资源利用率UN,t的奖励值, 代表针对低
能耗和低时延的动作at的奖励值,E为计算能耗,Ntotal代表计算资源总量,D表示网络时延用来衡量执行动作at后UC,t与UN,t与目标利用率Utarget之间的差异程度; ξ,为权重系数;a,β,ι,ω为标准化因子,以确保这些指标在同一维度上计算。
6.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤3中,智能体获得最优分配策略,具体如下:采用DDPG算法,优化目标为最大化预期的累积奖励,通过奖励来衡量策略的优劣程度,进而通过最大累积奖励来得到最优资源分配策略;在DDPG中,采用深度神经网络来近似策略函数λ和价值函数Q,其中,策略函数用于输出给定网络状态下的最优动作,而价值函数则用于计算不同时刻Q值;基于图神经网络的DDPG算法实现如下:(1)对于策略函数和价值函数均使用双重神经网络架构,因此策略优化模型中包括Actor当前网络和Actor目标网络、Critic当前网络和Critic目标网络;首先初始化四个网μ Q络中的网络参数:随机初始化Actor当前网络参数η与Critic当前网络参数θ ,更新相应的μ Q目标网络参数η ′与θ ′,初始化episode=1,每轮训练时间步数t=1,设置训练最大轮数为episodemax=n‑1,n为节点个数;为避免模型出现过拟合的情况,设置验证频率f=35,容忍期限patience=20,计数器flag=0,即每35个episode进行一次验证,如果当前表现没有超越最佳表现则增加计数器否则重置计数器;如果计数器达到容忍期限设定值,则停止训练;
避免出现过拟合的情况并节省计算资源;
(2)在步骤1中已经通过MPNN获得网络环境下待决策任务决策步骤的状态st,Actor当前网络接收来自网络环境的状态st,基于状态st选择当前动作 εt表示在决策时刻τ时添加的随机噪声以增加学习的覆盖;接着Actor当前网络与网络环境进行交互,环境根据动作at为子任务分配相应的资源后得到新状态st+1以及奖励Rt,之后将每个决策时刻的当前状态st、动作at、奖励Rt以及下一状态st+1作为经验元组存入经验回放池中;与此Actor目标网络在经验回放集合W中进行采样得到st+1,选择最优的下一动作at+1,这些动作作为Critic目标网络的输入之一,Critic目标网络接着从经验回放集合W中随机采样x个元组作为样本进行训练,用于评估下一时刻的状态‑动作的Q值函数得到的结果作为参数输入到Critic当前网络中用于计算当前目标的Q值,考虑到随着时间步数的增加,未来奖励对当前决策的影响将逐渐减小,因此引入衰减因子v降低未来奖励在当前决策中的影响程度;具体计算公式可表示为:(3)由于网络拓扑环境、计算资源与网络资源是动态变化的,Actor网络和Critic网络需要不断适应变化的网络环境,以提供准确的评估或决策;具体的实现方式是不断地更新网络参数;通过均方差损失函数 利用神经网络的梯度反Q
向传播来更新Critic当前网络的所有参数θ,结合Critic当前网络的Q值函数利用Actor策略梯度函数 对Actor当前网络参数进行更新;为了增强训练的稳定性和收敛性,DDPG中目标网络使用软更新更新网络参数,Critic目标网络更新方法为 Actor目标网络更新方法为其中 为软更新系数;
(4)将状态更新到下一个状态再重复上述三个步骤,如果达到终止条件,则跳出循环,同时返回通过不断训练得到的最优资源分配方案的具体动作、对应的Q值估计以及Actor网络和Critic网络的网络参数。
7.根据权利要求1所述的一种算力网络中基于图神经网络的资源协同调度方法,其特征在于:在步骤4中,智能体在每个决策时刻,根据当前网络环境状态和服务请求的需求,通过DDPG算法得到最优资源分配方案的具体动作,为每个任务分配资源;接收到任务的计算节点将反馈资源的实际使用情况,接着利用MPNN根据接收到的反馈信息更新当前网络状态信息,智能体获得新的网络状态信息会及时调整资源分配方案,用于确保算力资源的有效利用和服务请求的高效处理,以适应网络资源的动态变化和服务请求的多样性。