买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的在线路由方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的在线路由方法及系统

￥31200

专利号： 2025102286497

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的在线路由方法，其特征在于，具体包括如下步骤：步骤1：计算源节点到目的节点之间的K条路径；

步骤2：预测第n‑1个周期得到的最优路径p的性能指标，所述性能指标包括端到端时延，端到端吞吐量以及端到端丢包率；n为大于2的正整数；

步骤3：计算第n‑2个周期得到的最优路径y的实际性能指标；

步骤4：计算步骤2中预测性能指标和步骤3中实际性能指标之间的相对差异，并根据相对差异更新端到端时延的权重wdelay，端到端剩余带宽的权重wrbw和端到端丢包率的权重wloss；

步骤5：基于步骤4更新的权重，更新第n个周期的奖励函数，基于第n个周期的奖励函数，采用SAC算法计算出第n个周期的最优路径，生成流表，下发至相应的交换机设备中，进行路径安装和流量转发，然后转步骤2；

所述步骤4具体为：

步骤4.1：计算预测性能指标和实际性能指标之间的相对差异：

其中，rel_delta_delay为端到端时延之间的相对差异，rel_delta_thr为端到端吞吐量之间的相对差异，rel_delta_loss为端到端丢包率之间的相对差异，p_delay为最优路径p的预测端到端时延，p_thr为最优路径p的预测端到端吞吐量，p_loss为最优路径p的预测端到端丢包率；ypD为最优路径y的实际端到端时延，ypThr为最优路径y的实际端到端吞吐量，ypL为最优路径y的实际端到端丢包率，ε为常数；

步骤4.2：计算端到端时延、端到端剩余带宽以及端到端丢包率的权重：zdelay＝k1*rel_delta_delay；

zthr＝k1*rel_delta_thr；

zloss＝k1*rel_delta_loss；

其中，k1表示缩放因子，zdelay，zthr以及zloss均为中间量；

SAC算法中奖励函数r的表达式具体为：

其中，k表示第k条路径，k＝1，2，...，K；表示第k条路径端到端时延归一化后的值，表示第k条路径端到端剩余带宽归一化后的值，表示第k条路径端到端丢包率归一化后的值。

2.根据权利要求1所述的一种基于深度强化学习的在线路由方法，其特征在于，步骤1中采用K条最短路径算法计算源节点到目的节点之间的K条路径。

3.根据权利要求1所述的一种基于深度强化学习的在线路由方法，其特征在于，步骤2中采用消息传递神经网络预测第n‑1个周期得到的最优路径的预测性能指标，对消息传递神经网络的训练具体为：步骤2.1：构建通信网络的拓扑图；

步骤2.2：对构建的通信网络拓扑图采用不同的流量情况进行仿真模拟，生成数据集；

步骤2.3：对数据集中的链路级特征的数据和路径级特征的数据进行预处理，并初始化链路的隐藏状态和路径的隐藏状态；

步骤2.4：对消息传递神经网络进行T次循环迭代，更新链路的隐藏状态和路径的隐藏状态，具体为：路径的消息传递过程：进行第t+1次迭代时，采用循环神经网络编码第t次迭代时链路的隐藏状态得到与该路径相关的链路状态序列mp,l，将和mp，l输入到注意力网络得到动态加权后的链路状态聚合信息np，l，将第t次迭代时路径的隐藏状态和np，l输入到神经网络μ，得到神经网络μ输出的第t+1次迭代时路径的隐藏状态链路的消息传递过程：进行第t+1次迭代时，使用求和的方式聚合第t+1次迭代时链路中所有路径的状态信息，从而得到路径的过渡状态信息ml，然后将链路的隐藏状态和ml输入到循环神经网络中，得到第t+1次迭代的链路的隐藏状态步骤2.5：最后将第T次循环得到的路径的隐藏状态输入到读出函数中，得到最优路径的预测性能指标。

4.根据权利要求3所述的一种基于深度强化学习的在线路由方法，其特征在于，步骤

2.3中的预处理为：对以数值为表示的数据进行归一化处理，对以类别为表述的数据进行热编码处理。

5.根据权利要求1所述的一种基于深度强化学习的在线路由方法，其特征在于，所述步骤3根据如下公式计算最优路径y的实际端到端时延ypD、实际端到端吞吐量ypThr和实际端到端丢包率ypL：其中，i表示源节点，j表示目的节点，eij表示最优路径y中的链路，d(eij)表示链路eij的时延，min表示最小函数，thr(eij)为链路eij的吞吐量，l(eij)为链路eij的丢包率。

6.实现权利要求1所述的一种基于深度强化学习的在线路由方法的系统，其特征在于，包括网络感知模块、网络监测模块、数据处理模块、预测模块、智能优选模块和路径安装模块；所述网络监测模块周期性向转发设备发送状态请求信息，异步接收转发设备的端口状态信息；并传送至数据处理模块和预测模块，端口状态信息包括端口的启用状态、流量负载、丢包率以及时延；

所述网络感知模块采集网络拓扑结构、全局路由方案、路径级信息和链路级信息；并传送至数据处理模块和预测模块；

所述数据处理模块计算出K条路径和性能指标的实际值；

所述预测模块根据网络拓扑结构、全局路由方案、流级信息和路径级信息预测性能指标；

所述智能优选模块计算奖励函数中端到端时延的权重，端到端剩余带宽的权重和端到端丢包率的权重，并在K条路径中选择最优路径作为全局路由方案；

所述路径安装模块获取智能优选模块计算的最优路径，生成流表，下发至交换机设备中，进行路径安装和流量转发。

7.一种计算机设备，包括存储器、处理器，以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的在线路由方法的步骤。

8.一种计算机可读存储介质，用于存储程序，其特征在于，执行所述程序以实现权利要求1至5中任意一项所述的在线路由方法。