买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于注意力机制和深度强化学习的SDN多路径路由方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于注意力机制和深度强化学习的SDN多路径路由方法

￥19200

专利号： 2023101382905

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，包括：S1：利用SDN控制器集中控制，获取全局网络拓扑信息，并且周期性采集网络中的实时链路信息和数据流量信息；

S2：根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径；

S3：根据不同的QoS业务数据需求将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流；

将待转发的数据流量从原本单路径承担的数据流量拆分为多条路径共同承担的网络数据流，包括：将目标转换为最小化网络的最大链路利用率，表示为：受制于

BLinkij＜Bandwidthij

其中，表示路径负载，表示备选路经所提供的带宽之和，F_bandwidth表示当前所有待转发业务流的带宽需求，表示分拆业务流路径总时延，F_delay表示业务流能接受最大时延，BLinkij表示链路承载的所有业务流，Bandwidthij表示链路提供的总带宽，P表示备选路径集，pi表示第i条备选路径，表示两个相连交换机Si和Sj之间的链路；

S4：采用基于CNN的注意力机制对多条备选转发路径的链路状态信息进行特征提取；

S41：采用32个一维卷积的卷积核对所述链路状态s进行卷积操作提取相应特征F＝

1×1

Conv (s)；

S42：根据特征F在32个通道域上采用全局平均池化和全局最大池化分别得到两个新的

1×m×k 1×m×K

特征Favg∈R 和Fmax∈R ，将两个新的特征进行融合，得到融合特征Fam＝[Favg；Fmax]；

1×m×K

S43：对融合特征Fam在通道上进行全局平均池化操作，提取得到细节特征Fc∈R ；

S44：采用两个具有不同卷积核尺寸的注意力机制卷积层对细节特征Fc在两个不同的维

1×m k×1

度上实行卷积操作，得到双重注意力特征向量Nw＝Conv (Fc)和Mw＝Conv (Fc)；

S45：采用矩阵乘法计算双重注意力机制下的特征向量矩阵NMw＝Nw×Mw；

S46：将NMw输入残差块用于保证信息的完整性，并执行一维卷积操作，得到结果Fj＝m×1Conv (NMw+Fc)；

S5：根据链路状态信息的特征通过DQN模型计算网络数据流的路由选择策略，得到网络数据流的转发路径，并通过网络数据流的转发路径传输数据；

S51：使用min‑max标准对链路丢包率、时延和链路剩余可用带宽归一化处理；

S52：根据归一化后的链路丢包率、时延和链路剩余可用带宽建立链路开销Costij作为度量链路质量的综合指标；

S53：根据开销小的链路将优先被考虑转发数据的特点设计DQN模型的奖励值函数r；

S54：初始化DQN模型的Q网络及其参数：随机初始化当前Q网络的参数θ，初始化目标Q网‑络的参数θ＝θ；

S55：DQN模型使用神经网络来逼近Q值函数，该网络的输入是状态s，输出是Q(s，a)，DQN模型将当前系统状态s以及待转发数据流信息输入Q网络通过神经网络计算出Q值函数后，使用ε‑贪心策略来输出动作a，得到数据流的转发路径，其中，A表示智能体的所有可选动作。

2.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，根据采集的实时链路信息和数据流量信息动态计算待转发流从源到目的节点之间的多条备选转发路径，包括：采用多次Dijkstra算法根据网络拓扑信息计算待转发流从源St到目的节点Dt的多条路径集合P，P＝{p1，p2，...，pn}，且任意两条路径之间不存在链路复用，每次选择最优路径后，删除最优路径包含的所有链路再次重新计算选择剩余拓扑中的最优路径，直到从源St到目的节点Dt无连通路径。

3.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述QoS业务数据需求，包括：源St到目的节点Dt间路径时延：

源St到目的节点Dt间路径丢包率：

路径可用带宽容量：

路径负载：

其中，D(pi)表示源St到目的节点Dt间的路径时延，pi表示第i条备选路径，表示两个相连交换机Si和Sj之间的链路，delayij表示交换机Si到Sj之间的链路时延，Uij表示链路资源负载比， dtx表示传播时延，Bandwidthij_ed表示在当前时刻链路已使用带宽，Bandwidthij表示链路提供的总带宽，L(pi)表示源St到目的节点Dt间的路径丢包率，lossij表示交换机Si到Sj之间的链路丢包率，C(pi)表示第i条备选路径的可用带宽容量，Cij表示交换机Si到Sj之间的路径可用带宽容量，Cij＝Bandwidthij‑Bandwidthij_ed，表示第i条备选路径的路径负载。

4.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，使用min‑max标准对链路丢包率、时延和链路剩余可用带宽归一化处理，包括：丢包率：

时延：

链路可用带宽：

其中，lij，dij，bij分别表示链路丢包率、时延和链路剩余可用带宽的归一化处理后的数据，lossmax表示链路丢包率最大值，lossmin表示链路丢包率最小值，lossij表示交换机Si到Sj之间的链路丢包率，delaymax表示链路时延最大值，delaymin表示链路时延最小值，delayij表示交换机Si到Sj之间的链路时延，Bandwidthij表示链路提供的总带宽，Cij表示交换机Si到Sj之间的路径可用带宽容量。

5.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述链路开销Costij，包括：Costij＝αlij+βdij+γbij

其中，α，β，γ分别表示链路丢包率lij、时延dij和链路剩余可用带宽bij的加权指数，α+β+γ＝1。

6.根据权利要求1所述的一种基于注意力机制和深度强化学习的SDN多路径路由方法，其特征在于，所述DQN模型的奖励值函数r，包括：其中，Costij表示链路开销，pi表示第i条备选路径，表示两个相连交换机Si和Sj之间的链路。