1.基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,包括:S1、利用Mininet和Ryu软件构建软件定义网络,利用该网络模拟通信网络,通信网络的拓扑结构包括节点和节点之间的链路;
S2、基于通信网络的路由问题,建立通信网络多径路由算法模型,该模型包括节点部署的智能体,所述智能体为多智能体近端策略优化智能体;具体为:所述智能体包括分层式Actor‑Critic网络,该网络包括高层Actor网络、低层Actor网络、高层Critic网络和低层Critic网络;
高层Actor网络包括输入层、通用特征提取层和异质业务专用策略层;低层Actor网络包括第一深度神经网络;高层Critic网络包括图神经网络和第二深度神经网络;低层Critic网络包括第三深度神经网络;
构建高层奖励函数Rh,具体表达式为:
Rh=w1log b‑w2d‑w3l
其中,b表示异质业务的吞吐量值,d表示异质业务的时延值,l表示异质业务的丢包率,w1、w2和w3分别表示b、d、l的重要性权重;
构建低层奖励函数Rl,具体表达式为:
Rl=γ·Rh‑(1‑γ)·log(1+u)
其中,γ表示折扣因子;u表示链路带宽利用率, bcapa表示链路带宽容量,buse表示链路已用带宽;
S3、获取待多径路由选择的异质业务,路径从该业务的源节点开始,处于当前节点的智能体获取节点状态、链路状态、邻接矩阵和链路矩阵,经过通信网络多径路由算法模型的处理,得到相应的路径,通过智能体与软件定义网络的数据交互,得到高层动作的优势值和低层动作的优势值,利用低层动作的优势值对低层网络进行训练,冻结训练后的低层网络的模型参数,利用高层动作的优势值对高层网络进行训练,得到训练后的智能体,进而得到训练后的通信网络多径路由算法模型;
S4、利用训练后的通信网络多径路由算法模型对通信网络的M个异质业务进行路径决策,完成通信网络多径路由的选择。
2.根据权利要求1所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,异质业务包括时延敏感业务、带宽敏感业务和可靠性敏感业务。
3.根据权利要求1所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,步骤S3中,训练智能体包括以下内容:
S301、初始化通信网络多径路由算法模型,设置初始时间步为0;获取待多径路由选择的异质业务,该业务的源节点为g0,目的节点为gκ;路径从源节点g0开始;
S302、处于当前节点的智能体获取第t时间步的节点状态、链路状态、邻接矩阵和链路矩阵;
S303、将第t时间步的节点状态输入到分层式Actor‑Critic网络中,经过高层Actor网络的输入层将该节点状态传输到通用特征提取层中,利用深度神经网络进行特征提取,得到通用节点特征向量,该向量经过异质业务专用策略层,利用图多头注意力机制得到异质业务对应的注意力分布;
注意力分布包括当前节点选择邻居的第j个节点作为下一跳的权重,权重的计算公式为:
其中,α当,j表示当前节点对第j个节点的注意力权重,Nh表示注意力头的总数, 表示当前节点的邻居节点集合,n表示第n个注意力头, 均表示当前节点下第n个注意力头对第η个异质业务类型的学习参数, 表示 的转置,LeakyReLU表示激活函数,X当表示当前节点的特征向量,Xj表示第j个节点的特征向量,Xθ表示第θ个节点的特征向量,exp表示自然指数函数运算;
根据注意力分布和对应的邻接矩阵得到异质业务对应的高层动作和该动作对应的对数概率,并将该动作作为下一跳节点g1;
第t时间步的链路状态和下一跳节点g1共同经过低层Actor网络,利用第一深度神经网络进行特征提取,并计算链路类型的概率分布,根据该概率分布和对应的链路矩阵得到低层动作和该动作对应的对数概率,并将该动作作为第一链路a1;
S304、将下一跳节点g1和第一链路a1进行组合,得到处于当前节点的智能体动作(g1,a1),智能体行进到下一跳节点g1;
S305、处于下一跳节点g1的智能体重复步骤S302‑S304,直到到达目的节点gκ时停止,进而形成路径Q,Q={g0→(g1,a1)→…→gκ};
将路径Q发送到软件定义网络中,对业务流进行传输,测量业务流的吞吐量、时延和丢包率,并利用高层奖励函数和低层奖励函数计算高层奖励值和低层奖励值;利用软件定义网络更新节点状态、链路状态、邻接矩阵和链路矩阵,得到第t+1时间步的节点状态、链路状态、邻接矩阵和链路矩阵,进而得到路径Q中智能体对应的高层决策序列和低层决策序列,具体表达式为:i
其中,Dh表示第i个智能体的高层决策序列,i∈{0,1…,N},N=κ‑1,N表示智能体总数,κ表示路径终点, 表示第t时间步的节点状态, 表示第t时间步的高层动作对数概率,gi+1表示第i+1个智能体的高层动作, 表示第t时间步的高层奖励值, 表示第t+1时间i步的节点状态,Dl表示第i个智能体的低层决策序列, 表示第t时间步的链路状态, 表示第t时间步的低层动作对数概率,ai+1表示第i+1个智能体的低层动作, 表示第t时间步的低层奖励值, 表示第t+1时间步的链路状态;
S306、低层决策序列中的 和 共同经过低层Critic网络,利用第三深度神经网络得到相应的低层动作价值估计 和 并计算第t时间步低层动作的时间差分误差 具体计算公式为:
递归计算第t时间步低层动作的优势值 具体计算公式为:其中,t∈[T‑1,T‑2,...,0],T表示训练批量数;λ表示广义优势估计衰减因子; 表示第t+1时间步低层动作的优势值; 表示第T时间步低层动作的优势值;
S307、基于第t时间步低层动作的优势值 计算损失梯度并更新低层Actor网络和低层Critic网络的模型参数;
S308、更新时间步,重复步骤S306到S307,直到达到设定的最大训练次数停止,得到训练后的低层Actor网络和低层Critic网络;
S309、冻结训练后的低层Actor网络和低层Critic网络的模型参数,设定时间步为0;高层决策序列中的 和 共同经过高层Critic网络,利用图神经网络和第二深度神经网络得到相应的高层动作价值估计 和 并计算第t时间步高层动作的时间差分误差具体计算公式为:
递归计算第t时间步高层动作的优势值 具体计算公式为:其中, 表示第t+1时间步高层动作的优势值, 表示第T时间步高层动作的优势值;
S310、基于第t时间步高层动作的优势值 计算损失梯度并更新高层Actor网络和高层Critic网络的模型参数;
S311、更新时间步,重复步骤S309到S310,直到达到设定的最大训练次数停止,得到训练后的高层Actor网络和高层Critic网络;完成分层式Actor‑Critic网络的训练。
4.根据权利要求3所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,步骤S3中,节点状态是形状为N×V×9的矩阵,V表示节点总数;第i个智能体的第j个节点的状态向量SNij表示为SNij=[SNij1,SNij2,SNij3,SNij4,SNij5,SNij6,SNij7,SNij8,SNij9]具体表达式为:其中,SNij1表示业务流带宽需求的归一化值,SNij2表示由最短路径算法得到的路径跳数归一化值,SNij3表示由最短路径算法得到的路径最大可用带宽归一化值,SNij4表示由最短路径算法得到的路径最小累计丢包率归一化值,SNij5表示由最宽路径算法得到的路径跳数归一化值,SNij6表示由最宽路径算法得到的路径最大可用带宽归一化值,SNij7表示由最宽路径算法得到的路径最小累计丢包率归一化值,SNij8表示最短路径指示器,SNij9表示最宽路径指ij示器,τ表示业务请求的发送速率,D SPR表示利用最小跳数算法得到的第i个智能体到第jij个节点的路径距离,C SPR表示利用最小跳数算法得到的第i个智能体到第j个节点的路径最ij大可用带宽,L SPR表示利用最小跳数算法得到的第i个智能体到第j个节点的路径最小累计ij ij丢包率,L min表示第i个智能体与第j个节点之间的链路最低丢包率,D WP表示利用最宽路ij径算法得到的第i个智能体到第j个节点的路径距离,C wp表示利用最宽路径算法得到的第iji个智能体到第j个节点的路径最大可用带宽,L wp表示利用最宽路径算法得到的第i个智im能体到第j个节点的路径最小累计丢包率,D SPR表示利用最小跳数算法得到的第i个智能体im到第m个节点的路径距离,C WP表示利用最宽路径算法得到的第i个智能体到第m个节点的路径最大可用带宽,min()表示取最小值函数;
链路状态是形状为N×L×3的矩阵,L表示链路类型总数;第i个智能体的第k个链路类型的状态向量SLik表示为SLik=[SLik1,SLik2,SLik3],具体计算公式为:其中,SLik1表示链路剩余带宽的归一化值,SLik2表示链路时延的归一化值,SLik3表示链路丢包率的归一化值,Cik表示与第i个智能体相连的第k个链路类型的带宽容量,Uik表示与第i个智能体相连的第k个链路类型的带宽使用量,Dik表示与第i个智能体相连的第k个链路类型的时延,Lik表示与第i个智能体相连的第k个链路类型的丢包率;
邻接矩阵是形状为N×N的矩阵;
链路矩阵是形状为N×N×L的矩阵。
5.根据权利要求3所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,步骤S307中,更新低层网络的模型参数包括以下内容:计算低层动作损失梯度Laction_low,具体公式为:其中,clip表示裁剪函数; 表示第t时间步的低层新旧动作的概率比,表示第t‑1时间步的低层动作对数概率;ε表示裁剪参数;
计算低层价值损失梯度Lvalue_low,具体公式为:计算总损失梯度Ltotal_low,并反向传播存储在智能体中,具体公式为:Ltotal_low=c1·Lvalue_low+Laction_low‑c2·Hl其中,c1表示价值损失系数,c2表示熵正则化权重,Hl表示第一策略分布熵;
根据Ltotal_low,使用Adam优化器逆向更新低层Actor网络和低层Critic网络的模型参数。
6.根据权利要求3所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,步骤S310中,更新高层网络的模型参数包括以下内容:计算高层动作损失梯度Laction_high,具体公式为:其中,clip表示裁剪函数; 表示第t时间步的高层新旧动作的概率比,表示第t‑1时间步的高层动作对数概率;ε表示裁剪参数;
计算高层价值损失梯度Lvalue_high,具体公式为:计算高层总损失梯度Ltotal_high,并反向传播存储在智能体中,具体公式:Ltotal_high=c1·Lvalue_high+Laction_high‑c2·Hh其中,c1表示价值损失系数,c2表示熵正则化权重,Hh表示第二策略分布熵;
根据Ltotal_high,使用Adam优化器逆向更新高层Actor网络和高层Critic网络的模型参数。
7.根据权利要求3所述的基于多智能体深度强化学习的通信网络多径路由选择方法,其特征在于,步骤S4中,通信网络多径路由选择包括以下内容:基于步骤S305中得到的高层决策序列和低层决策序列,将 和 输入到训练后的分层式Actor‑Critic网络中,重复步骤S303‑S305,直到为M个异质业务获得路由路径时停止。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于多智能体深度强化学习的通信网络多径路由选择方法的步骤。
9.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至7中任一项所述的基于多智能体深度强化学习的通信网络多径路由选择方法。