利索能及
我要发布
收藏
专利号: 2024114805264
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于链路状态感知增强的路径智能优选方法,其特征在于,针对目标网络,执行如下步骤S1‑步骤S4,完成目标网络中业务数据转发的路径选择:步骤S1:采集目标网络的拓扑信息与端口状态信息,计算目标网络的通信链路状态信息和端到端路径状态信息,包括全局网络的业务请求、剩余带宽、时延、丢包率,组成目标网络的网络状态,并计算全局网络平均吞吐量、平均端到端时延和平均丢包率;

步骤S2:目标网络中的智能体基于AC架构的PPO算法构建智能路径决策模型,将步骤S1所获得的网络状态组成网络状态序列输入智能体,智能体基于当前时刻的网络状态序列st,执行路径选择动作at,然后获取下一时刻网络状态序列st+1,同时获取当前时刻的奖励rt,并以四元组形式(st,at,rt,st+1)构成样本存储在经验回放池中;

步骤S2的具体步骤如下:

步骤S2.1:智能体采集t时刻的网络状态xt构成状态空间,t时刻的网络状态xt如下式:;

式中, 、 、 、 分别表示t时刻全局网络的业务请求、链路剩余带宽、时延、丢包率;f=4,表示网络状态特征维度,n表示目标网络链路总数;

其中,全局网络的业务请求 表达式如下:;

式中, 表示t时刻目标网络中节点i与节点j之间链路eij上的业务请求,m为节点总数;

全局网络的链路剩余带宽 表达式如下:;

式中, 表示t时刻目标网络中节点i与节点j之间链路eij的剩余带宽;

全局网络的时延 表达式如下:

式中, 表示t时刻目标网络中节点i与节点j之间链路eij的时延;

全局网络的丢包率 表达式如下:

式中, 表示t时刻目标网络中节点i与节点j之间链路eij的丢包率;

采用Min‑Max方法对 、 、 、 中的各元素进行归一化处理;基于t时刻及t时刻前l‑1个时间步长的网络状态,l为预设的网络状态序列长度,组合形成t时刻的网络状态序列st如下:;

步骤S2.2:智能体根据网络状态序列st采取的路径选择动作at构成动作空间,假设全局网络源—目的节点对间包含k条可行路径,构成可行路径集 ,其中每一条路径都对应一个路径权值,构成路径权值集 ;将每个路径选择动作定义为 ;其中 , ,wij

表示源节点i与目的节点j之间选择路径p的路径权值,且 ;

步骤S2.3:智能体采集执行路径选择动作at后的实时网络性能指标,设置奖励函数计算奖励值,将奖励值反馈给智能体,奖励函数如下式:;

其中,r为奖励值,α、β、γ 为奖励权值,取值范围为 , , , 表示归一化处理后的网络性能指标,其中, 为归一化处理后的全局网络平均吞吐量、 为归一化处理后的平均端到端时延, 为归一化处理后的平均丢包率;

步骤S3:从经验回放池中抽取样本,迭代训练智能路径决策模型,对路径选择策略进行更新,直到智能路径决策模型达到收敛,针对当前时刻目标网络,采用收敛的智能路径决策模型生成并存储路径选择策略,将路径选择策略所对应的目标网络节点对之间的路径作为最优路径;

步骤S4:基于最优路径生成流表,下发至目标网络的交换机设备中,进行路径安装和业务数据转发。

2.根据权利要求1所述的一种基于链路状态感知增强的路径智能优选方法,其特征在于,智能路径决策模型所基于的AC架构包括策略网络和评估网络,策略网络根据网络状态xt输出路径选择动作at,评估网络输出网络状态的评估价值;

策略网络包括时间特性提取模块、自注意力机制模块、空间特性提取模块、多层感知器模块;

时间特性提取模块基于GRU网络构建,包括更新门、重置门、隐藏层,其中更新门以当前时刻的网络状态xt和前一时刻的隐藏状态ht‑1为输入,具体如下式:;

式中,Zt为更新门,Wz为更新门权重矩阵,ht‑1为前一时刻的隐藏状态,Uz为ht‑1的更新门权重矩阵;

重置门以当前时刻的网络状态xt和前一时刻的隐藏状态ht‑1为输入,具体如下式:;

式中,Rt为重置门,Wr为重置门权重矩阵,Ur为ht‑1的重置门权重矩阵;

根据重置记忆信息公式,计算当前时刻的候选隐藏状态 :;

式中, 为权重矩阵, 为ht‑1的权重矩阵, 表示哈达玛乘积;

当前时刻的隐藏状态ht如下式:

由于智能体输入的网络状态序列st包含l个时间步长,因此GRU网络包含l个单元,GRU网络的输出如下式:;

R

式中,H 表示GRU网络的输出, 表示GRU网络中第i个单元的隐藏层输出,;f表示网络状态特征维度,n表示目标网络链路总数;

R

自注意力机制模块输入GRU网络的输出H ,根据如下公式计算查询矩阵、键矩阵和值矩阵:;

其中,Q、K、V分别为查询矩阵、键矩阵、值矩阵,WQ、WK、WV分别为查询矩阵、键矩阵、值矩阵的权重;

α

计算每个单元的注意力权重并生成注意力矩阵H 如下式:;

其中,M表示权重矩阵维度, 是缩放系数, 表示第i个单元的注意力权重; 表示键矩阵K中第i个键向量的转置,qi表示查询矩阵Q中第i个查询向量,vi表示值矩阵V中的第i个值向量;

自注意力机制模块的输出 如下式:

式中,WR是权重矩阵, 表示加权平均运算; 表示自注意力机制模块的输出 中的特征向量;

空间特性提取模块基于GAT网络构建,GAT网络将自注意力机制模块的输出中的元素作为图结构第i个节点的节点特征,定义cij为节点j对节点i的注意力系数,如下式:;

其中, 表示邻接矩阵,Aij表示图结构中节点i和节点j的连通性, 是转换函数,符号 表示向量拼接,We是权重矩阵, ;

引入softmax函数对注意力系数cij进行标准化处理,如下式:;

其中,Ni表示节点i的一阶邻居节点,aij为标准化后的注意力系数;

利用标准化后的注意力系数将节点i的邻域表示进行线性累加得到该节点的最终输出特征:;

其中,σ表示非线性激活函数, 表示节点i的最终输出特征;

引入多头注意力如下式:

式中,K表示头数; 表示第k个注意力头中,节点j对节点i的标准化注意力系数, 是多头注意力后的节点i的最终输出特征;σ为非线性激活函数;

GRU网络输出特性矩阵 ,具体形式如下:;

多层感知器模块以GRU网络输出的特性矩阵 为输入,输出t时刻的路径选择动作at:;

路径选择动作 ,其中 ,

为输出层神经元数量。

3.根据权利要求1所述的一种基于链路状态感知增强的路径智能优选方法,其特征在于,步骤S3中,对路径选择策略的更新阶段使用优势函数 来衡量每个路径选择动作的好坏程度,优势函数定义如下:;

其中,rt是在网络状态序列st下执行路径选择动作at的奖励, 表示奖励折扣因子,和 分别表示当前时刻网络状态序列st和下一时刻网络状态序列st+1的评估价值;

采用重要性抽样方法调整路径选择策略的更新幅度,重要性抽样如下式:;

其中, 表示当前路径选择策略πθ在网络状态序列st下采取路径选择动作at的概率与旧路径选择策略 在网络状态序列st下采取路径选择动作at的概率的比值;

采用梯度裁剪方法定义目标函数 如下式:;

式中,Et表示在多个时间步长上评估括号内表达式的平均值;

路径选择策略的参数更新如下式:

其中, 表示更新后的路径选择策略参数;clip表示裁剪操作,ε表示裁剪因子。

4.一种基于链路状态感知增强的路径智能优选系统,其特征在于,包括数据层、控制层和应用层三层结构,以实现如权利要求1‑3任意一项所述的一种基于链路状态感知增强的路径智能优选方法:所述的数据层包含目标网络的各类路由节点以及通信链路,通过南向接口将目标网络的拓扑信息、端口状态信息传递给控制层,同时接收控制层下发的路径选择策略,并完成对业务数据的处理、转发操作;

所述的控制层包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块五个模块;

控制层通过南向接口向数据层周期性地发送预设请求指令,实时获取目标网络的拓扑信息、端口状态信息,并将路径选择策略传递给数据层;

其中,网络感知模块周期性地向数据层发送特性请求指令,获取目标网络的拓扑信息;

网络监测模块周期性地向数据层发送状态请求指令,并异步接收状态回复消息,获取目标网络中路由节点的端口状态信息;数据处理模块利用网络感知模块和网络监测模块采集的拓扑信息与端口状态信息,计算出链路状态信息和端到端路径状态信息,接着统计出全局网络平均吞吐量、平均端到端时延和平均丢包率并存储;智能优选模块构建智能路径决策模型,根据当前时刻的网络状态序列st,执行路径选择动作at,获取下一时刻网络状态序列st+1,同时获取当前时刻的奖励rt;路径安装模块根据路径选择动作at生成相应的流表,下发至数据层用于业务数据的转发;

应用层包括目标网络的各种业务及应用,通过北向接口与控制层进行信息交互。