1.一种基于深度强化学习的智能网络路径优选方法,其特征在于,针对目标网络,执行如下步骤S1‑步骤S5,完成目标网络的最优路径选择,并进行流量转发:步骤S1:以预设周期采集目标网络的原始数据,包括拓扑结构、交换机端口数据信息;
步骤S2:分别针对目标网络的拓扑结构中的每个源‑目的节点对,通过执行K条最短路径算法,计算各源‑目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率;
步骤S3:智能体基于DuelingDQN算法,构建深度强化学习模型,将步骤S2所获得的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态st,执行最优路径动作at,然后获取目标网络下一时刻的网络状态st+1,同时获取当前奖励rt,并以四元组(st,at,st+1,rt)的形式存储在基于SumTree结构的经验回放池中;
步骤S3中获得四元组(st,at,st+1,rt)的方法如下:
智能体执行当前时刻的最优路径动作at,改变目标网络当前时刻的网络状态st,以获得相应奖励,其中,st=[D,TM],D为目标网络当前时刻的网络流量业务请求信息,TM为当前时刻起步长t内状态矩阵,具体如下:式中,{b1,b2,…,bk}为各路径剩余带宽,{d1,d2,…,dk}为各路径时延,{l1,l2,…,lk}为各路径丢包率,k为路径总数;
针对各路径剩余带宽、时延、丢包率进行归一化,并针对目标网络当前时刻的网络状态st,智能体执行当前时刻的最优路径动作at,st对应的可执行路径域集合P={p1,p2,p3,…,pk},其中{p1,p2,p3,…,pk}为连接源‑目的节点对的各可执行路径,智能体从可执行路径域集合P中选择一条路径作为最优路径;
针对智能体执行最优路径动作的奖励函数R如下式:
式中, 分别为经过归一化处理后的路径剩余带宽、时延、丢包率,w1、w2、w3分别为路径剩余带宽、时延、丢包率的权值,且满足根据奖励函数R,基于目标网络当前时刻的网络状态st,计算智能体执行当前时刻的最优路径动作at所获得的奖励值rt,更新并输出下一时刻的Q值,其过程表示如下式:式中,Q(st,at;θ,α,α)表示目标网络当前时刻的Q值,γ为折扣因子,st+1为目标网络下一时刻的网络状态,θ和 分别表示智能体所包含的策略神经网络和目标神经网络的权重参数, 表示未更新时到达下一时刻网络状态st+1获得最大Q值的估计值;
步骤S4:基于经验回放池,智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径;
步骤S4中对深度强化学习模型进行迭代训练和参数更新过程如下:
当经验回放池容量大于采样数N时,从SumTree结构中抽取N个样本{sj,aj,sj+1,rj},j=
1,2,…,N,每个样本被抽取的概率基于下式:
式中,Pi为根据优先级得到的第i个样本被抽取的概率,pi为经验回放池中第i个样本的优先级值,pj为经验回放池中第j个样本的优先级值,M为经验回放池容量;
计算目标Q值 如下式:
定义基于TD误差的优先级对应的重要性采样权重,具体如下式:
式中,N为采样数, 为第j个样本优先级对应的重要性采样权重, 为第i个样本优先级对应的重要性采样权重;
通过对深度强化学习模型加入重要性采样权重 更新智能体的策略神经网络参数,其均方差损失函数Loss更正为下式:通过神经网络的梯度下降和反向传播来更新策略神经网络的权重参数θ,并重新计算样本的TD误差δi,进一步更新SumTree结构中节点的优先级pi,同时通过周期性传递更新目标神经网络的权重参数 完成深度强化学习模型进行迭代训练和参数更新;
步骤S5:根据步骤S4所获得的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
2.根据权利要求1所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S3中所述的DuelingDQN算法基于Q值评价各可执行路径的价值,具体如下:式中,Q(s,a;ω,β,α)表示目标网络的Q值,V(s;ω,β)为目标网络的价值函数,A(s,a;
ω,α)为目标网络的优势函数,s为目标网络的网络状态,a为目标网络的最优路径动作,ω为公共部分网络参数,β和α分别为价值函数和优势函数的独有参数,|A|为目标网络的可执行路径数量,a′为目标网络的可执行路径动作。
3.根据权利要求2所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S4中所述的基于SumTree结构的优先经验回放机制使用TD误差作为评判优先级的标准,TD误差的形式如下式:式中,δi为第i个样本的TD误差,样本表示存储于经验回放池中的各四元组;TD误差δi越大,表示该样本对于深度强化学习模型的预测精度的上升空间越大,回放该样本的收益越大;
经验回放池中第i个样本的优先级值pi表示为pi=|δi|+μ,μ为预设的正数值,SumTree结构为二叉树结构,将第i个样本的优先级值pi存储于SumTree结构中的叶子节点中,叶子节点上级的父节点存储其子节点的优先级值之和,SumTree结构的根节点存储所有叶子节点的优先级值之和。
4.一种基于深度强化学习的智能网络路径优选系统,其特征在于,包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块,以实现如权利要求1‑3任意一项所述的一种基于深度强化学习的智能网络路径优选方法;
网络感知模块用于以预设周期采集目标网络的拓扑结构,网络监测模块用于以预设周期采集目标网络的交换机端口数据信息,网络感知模块和网络监测模块将所采集的目标网络的原始数据上传至数据处理模块;
数据处理模块用于根据所接收的目标网络的原始数据,通过执行K条最短路径算法,计算各源‑目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率,存储并上传至智能优选模块;
智能优选模块中的智能体基于DuelingDQN算法,构建深度强化学习模型,将所接收的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态st,执行最优路径动作at,然后获取目标网络下一时刻的网络状态st+1,同时获取当前奖励rt,并以四元组(st,at,st+1,rt)的形式存储在基于SumTree结构的经验回放池中;
基于经验回放池,智能优选模块中的智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径,将目标网络的最优路径上传至路径安装模块;
路径安装模块根据所接收的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。