1.一种基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,包括如下步骤:S1,将天地一体化网络拓扑转化为流量传递有向图G;
S2,通过OMnet软件构建需要预测得到的网络拓扑,模拟多种流量情况,生成数据集,并对数据集进行预处理;
S3,将数据集中的流特征进行归一化处理,通过特征嵌入H函数分别对路径、链路、队列的隐藏状态进行初始化;
S4,通过MPNN进行消息传递、聚合更新和生成信息,依次对路径、链路、队列的隐藏状态进行处理;在聚合过程中,采用注意力机制捕捉骨干节点的邻近图结构信息;
S5,重复步骤S4至T次;
S6,将T次传递后的路径、链路和队列的隐藏状态作为读出函数的输入,将图内所有节点的特征聚合,最终得到一个包含整个图信息的隐藏状态 所述读出函数由神经网络实现,将输入的隐藏状态通过一个输入层和三个全连接层,其中最后一个全连接层的输出维度为1;
S7,计算流时延、抖动和每个流的丢包率;
S8,以平均绝对百分误差MAPE作为损失函数,对性能预测模型进行训练,迭代得到收敛值,生成源至目标节点的性能预测矩阵;
S9,根据步骤S8生成的性能矩阵参数,结合网络拓扑参数,划分为动态参数与静态参数;
S10,设置强化学习初始策略参数θ、Q函数参数f和空的重放缓冲区D,以及目标参数θt、ft;
S11,根据状态s执行选定的动作a,并对新的状态s'给出一个奖励r,以此来迭代代理策略;其中r是对已预测网络性能的奖励函数,存入重放缓冲区D;
S12,从重放缓冲区D中抽取经验B进行学习,设置计算目标值Yt;所述经验B包括代理在环境中的状态s、执行的动作a、获取的奖励r、新的状态s'和是否达到终止状态d;
S13,使用均方误差MSE作为损失函数更新Q函数Qf(s,a)、策略函数及目标网络;
S14,重复步骤S12的更新步骤,直至收敛,得到最优负载均衡路径结果。
2.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S1中,所述流量传递有向图G为由节点V和边E组成的图结构:G=(V,E),其中V表示*网络中各个节点,E表示节点间的连接关系;设置节点集V={v0,v1,…vi,i∈N},其中vi表示*网络中第i个节点,N表示自然数;定义网络中从源节点发送到目的节点的所有路径集合为P,P由多个节点构成,在任意两个节点间通信时,节点间存在多条链路,定义链路集为L=*{l1<v1,v2>,l2<v1,v2>,...,lj<v1,v2>,...,lj<vi‑1,vi>,j∈N},其中,lj<vi‑1,vi>代表节点vi‑1与节点vi间传输路径的第j条链路;在每一条链路上,根据队列优先级,定义队*列集Z={z1[l1],z2[l1],...,zu[lj],u∈N},在同一链路lj上,有不同的队列zu,u表示在该链路上的队列顺序。
3.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S3中,对路径、链路及队列的隐藏状态进行初始化的实现步骤如下:S31,根据步骤S2数据集中得到的流特征,按照路径特征、链路特征和队列特征进行分类;
S32,对于以数值表示的数据将其的实际值减去平均值,并除以标准差,作归一化处理;
对于以类别表示的数据将其用one_hot形式进行编码;
S33,通过路径、链路和队列的映射关系,依次将流的路径、链路和队列特征通过一个输入层、两个全连接层进行隐藏状态初始化,得到初始路径隐藏状态、初始链路隐藏状态和初始队列隐藏状态。
4.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S4中,对路径隐藏状态进行处理的步骤如下:SB1,将链路与路径映射的隐藏状态、队列与路径映射的隐藏状态按索引进行收集,获取与路径对应的状态子集;
SB2,将路径隐藏状态通过GRU门控循环单元进行更新;
SB3,将步骤SB1中保存的先前路径隐藏状态与步骤SB2更新得到的路径隐藏状态沿着axis=1拼接,对路径状态进行更新;在骨干网节点状态的聚合过程中,采用注意力机制,输出每次迭代完整的路径状态;
对队列隐藏状态进行处理的步骤如下:
SC1,从路径状态序列中获取与队列对应的子集;
SC2,将路径状态求和,得到每个队列对应的路径状态总和;
SC3,将步骤SC1中得到的当前队列隐藏状态和步骤SC2的路径状态总和作为输入,经过GRU门控循环单元更新得到新的队列状态,输出每次迭代完整的队列状态;
对链路隐藏状态进行处理的步骤如下:
SD1,从队列状态中获取与链路对应的子集;
SD2,将链路状态经过GRU门控循环单元更新得到新的链路状态;
SD3,将步骤SD1中的状态作为输入传递给GRU门控循环单元,并将步骤SD2中的状态作为初始状态,输出每次迭代完整的链路状态。
5.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S6中,所述读出函数由神经网络实现,将最终的隐藏状态通过一个输入层和三个全连接层,其中最后一个全连接层的输出形状大小为1。
6.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S7中,流时延 由排队时延 和传输时延 组成:抖动 为相对于平均时延的相对波动:
其中, 表示从隐藏状态中读出的队列占用率, 表示对应的链路容量; 表示链路平均传输数据包的大小; 表示从隐藏状态中读出链路的时延变化率;
最后,丢包率 定义为被丢弃的包相对于源传输的包的相对比率,直接通过读出函数R进行输出。
7.根据权利要求1所述基于深度强化学习的天地一体化负载均衡路由方法,其特征在于,步骤S9中,所述动态参数包括时延、抖动和丢包;所述静态参数为网络的固有属性。