买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的天地一体化负载均衡路由方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的天地一体化负载均衡路由方法

￥26000

专利号： 2023116699161

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的天地一体化负载均衡路由方法，其特征在于，包括如下步骤：S1，将天地一体化网络拓扑转化为流量传递有向图G；

S2，通过OMnet软件构建需要预测得到的网络拓扑，模拟多种流量情况，生成数据集，并对数据集进行预处理；

S3，将数据集中的流特征进行归一化处理，通过特征嵌入H函数分别对路径、链路、队列的隐藏状态进行初始化；

S4，通过MPNN进行消息传递、聚合更新和生成信息，依次对路径、链路、队列的隐藏状态进行处理；在聚合过程中，采用注意力机制捕捉骨干节点的邻近图结构信息；

S5，重复步骤S4至T次；

S6，将T次传递后的路径、链路和队列的隐藏状态作为读出函数的输入，将图内所有节点的特征聚合，最终得到一个包含整个图信息的隐藏状态所述读出函数由神经网络实现，将输入的隐藏状态通过一个输入层和三个全连接层，其中最后一个全连接层的输出维度为1；

S7，计算流时延、抖动和每个流的丢包率；

S8，以平均绝对百分误差MAPE作为损失函数，对性能预测模型进行训练，迭代得到收敛值，生成源至目标节点的性能预测矩阵；

S9，根据步骤S8生成的性能矩阵参数，结合网络拓扑参数，划分为动态参数与静态参数；

S10，设置强化学习初始策略参数θ、Q函数参数f和空的重放缓冲区D，以及目标参数θt、ft；

S11，根据状态s执行选定的动作a，并对新的状态s'给出一个奖励r，以此来迭代代理策略；其中r是对已预测网络性能的奖励函数，存入重放缓冲区D；

S12，从重放缓冲区D中抽取经验B进行学习，设置计算目标值Yt；所述经验B包括代理在环境中的状态s、执行的动作a、获取的奖励r、新的状态s'和是否达到终止状态d；

S13，使用均方误差MSE作为损失函数更新Q函数Qf(s,a)、策略函数及目标网络；

S14，重复步骤S12的更新步骤，直至收敛，得到最优负载均衡路径结果。

2.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法，其特征在于，步骤S1中，所述流量传递有向图G为由节点V和边E组成的图结构：G＝(V,E)，其中V表示*网络中各个节点，E表示节点间的连接关系；设置节点集V＝{v0,v1,…vi,i∈N}，其中vi表示*网络中第i个节点，N表示自然数；定义网络中从源节点发送到目的节点的所有路径集合为P，P由多个节点构成，在任意两个节点间通信时，节点间存在多条链路，定义链路集为L＝*{l1＜v1,v2＞,l2＜v1,v2＞,...,lj＜v1,v2＞,...,lj＜vi‑1,vi＞,j∈N}，其中，lj＜vi‑1,vi＞代表节点vi‑1与节点vi间传输路径的第j条链路；在每一条链路上，根据队列优先级，定义队*列集Z＝{z1[l1],z2[l1],...,zu[lj],u∈N}，在同一链路lj上，有不同的队列zu，u表示在该链路上的队列顺序。

3.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法，其特征在于，步骤S3中，对路径、链路及队列的隐藏状态进行初始化的实现步骤如下：S31，根据步骤S2数据集中得到的流特征，按照路径特征、链路特征和队列特征进行分类；

S32，对于以数值表示的数据将其的实际值减去平均值，并除以标准差，作归一化处理；

对于以类别表示的数据将其用one_hot形式进行编码；

S33，通过路径、链路和队列的映射关系，依次将流的路径、链路和队列特征通过一个输入层、两个全连接层进行隐藏状态初始化，得到初始路径隐藏状态、初始链路隐藏状态和初始队列隐藏状态。

4.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法，其特征在于，步骤S4中，对路径隐藏状态进行处理的步骤如下：SB1，将链路与路径映射的隐藏状态、队列与路径映射的隐藏状态按索引进行收集，获取与路径对应的状态子集；

SB2，将路径隐藏状态通过GRU门控循环单元进行更新；

SB3，将步骤SB1中保存的先前路径隐藏状态与步骤SB2更新得到的路径隐藏状态沿着axis＝1拼接，对路径状态进行更新；在骨干网节点状态的聚合过程中，采用注意力机制，输出每次迭代完整的路径状态；

对队列隐藏状态进行处理的步骤如下：

SC1，从路径状态序列中获取与队列对应的子集；

SC2，将路径状态求和，得到每个队列对应的路径状态总和；

SC3，将步骤SC1中得到的当前队列隐藏状态和步骤SC2的路径状态总和作为输入，经过GRU门控循环单元更新得到新的队列状态，输出每次迭代完整的队列状态；

对链路隐藏状态进行处理的步骤如下：