买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于流量状态预测的队列智能管理方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于流量状态预测的队列智能管理方法

￥31200

专利号： 2024111644627

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-07-01

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于流量状态预测的队列智能管理方法，其特征在于，针对网络环境中由数据包组成的队列，执行如下步骤S1‑步骤S5，完成队列的管理：步骤S1：针对当前时刻的网络环境，根据当前时刻的队列长度Lt，基于GRU算法，经过更新门和重置门两个门控单元的计算，输出预测的下一时刻的队列长度Lt+1，完成网络流量状态预测；

步骤S1的具体步骤如下：

步骤S1.1：设置更新门zt如下式：

；

其中，为更新门的权重矩阵，为上一时刻的隐藏状态，为更新门中上一时刻隐藏状态的权重矩阵，为当前时刻t的队列长度；

步骤S1.2：设置重置门Rt如下式：

；

其中，为重置门的权重矩阵，为重置门中上一时刻隐藏状态的权重矩阵；

步骤S1.3：计算当前时刻的候选隐藏状态如下式：；

其中，为权重矩阵，为偏置向量；

步骤S1.4：最终的隐藏状态的计算公式如下式：；

式中，为当前时刻的候选隐藏状态，为上一时刻的隐藏状态，为更新门；

步骤S2：以下一时刻的队列长度Lt+1、当前时刻的丢包率Rdeq和队列延迟dt，组成当前时刻的网络状态；

步骤S3：基于策略神经网络和目标神经网络组成智能体，智能体监测当前时刻的网络状态St，当队列中存在队列延迟时，智能体根据当前时刻的网络状态St，基于ε‑greedy策略决策并输出针对数据包的动作at；

步骤S3中的ε‑greedy策略如下式：；

式中，at表示针对数据包的动作，x表示随机变量，ε表示衰减参数，表示当前时刻网络状态的Q值函数，由策略神经网络计算，其中，St表示当前时刻网络状态，a表示智能体可执行的动作，θ表示策略神经网络的权重；表示智能体可执行的动作a中使当前时刻网络状态的Q值函数最大的动作；

衰减参数ε如下式：

；

式中，为ε的初始值，表示ε的最小值，为衰减因子，steps为迭代次数；

步骤S4：设置奖励函数，根据智能体所输出的动作at，智能体获得相应的奖励rt，并更新网络状态St+1；基于网络状态St、动作at、奖励rt、网络状态St+1，组成经验样本存储到经验回放池中；

步骤S4中设置奖励函数的具体步骤如下：

步骤S4.1：设计吞吐量奖励函数；设计时延奖励函数，分别如下式：

；

其中，为当前周期内的平均网络吞吐量，是上一个周期内的平均网络吞吐量；是期望排队时延，是当前排队时延，通过队列长度和出队速率计算得出；δ和μ是吞吐量奖励函数和时延奖励函数之间的缩放因子；和的计算如下式：；

；

其中，是队列的数据包数量，是丢弃数据包的数量，Lt是当前时刻的队列长度，当为0时，将也设置为0；

步骤S4.2：设置clip函数将奖励rt裁剪为对应于‑1到1之间的值，表示为下式：；

当时，将奖励r t 赋值为‑1；当

时，奖励rt等于其本身；当

时，将奖励rt赋值为1；

步骤S5：当经验回放池中的经验样本数量超过预设的最小批量值，智能体从经验回放池中随机选取经验样本，对策略神经网络和目标神经网络进行训练并更新权重，完成队列的管理。

2.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤S3中针对数据包的动作at包括丢弃和保留，如果智能体所决策的动作是丢弃，则，如果智能体所决策的动作是保留，则。

3.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤S5具体步骤如下：步骤S5.1：智能体以网络状态St、动作at、奖励rt、网络状态St+1组成一个经验样本，以元组形式存储到经验回放池中；

步骤S5.2：当经验回放池中的经验样本数量超过预设的最小批量值，智能体从经验回放池中随机选取经验样本i；

步骤S5.3：根据选取的经验样本i，策略神经网络计算当前经验样本i对应的网络状态的Q值函数，其中，Si、ai、θ分别为当前经验样本i对应的网络状态、动作，以及策略神经网络的权重，目标神经网络计算下一个经验样本i+1对应的网络状态的目标Q值函数，其中，Si+1、a、分别为下一个经验样本i+1对应的网络状态、智能体可执行的动作、目标神经网络的权重；

步骤S5.4：利用梯度下降最小化损失函数训练策略神经网络和目标神经网络，并更新策略神经网络的权重θ、目标神经网络的权重。

4.根据权利要求3所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤S5.4中的损失函数具体如下式：；

式中，loss表示损失函数，ri为根据选取的经验样本i，智能体所获得的奖励，γ 为奖励折扣因子，E表示数学期望。

5.根据权利要求3所述的一种基于流量状态预测的队列智能管理方法，其特征在于，步骤S5.4中训练策略神经网络和目标神经网络时，采用Xavier initializer初始化策略神经网络和目标神经网络的权重，并使用Adam优化器进行训练优化。

6.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法，其特征在于，策略神经网络和目标神经网络为多层感知器，具有两个隐藏层，每个隐藏层包含64个神经元；

在每个隐藏层部署ReLU激活函数，激活函数的定义为，y表示进入神经元的输入向量，并在输出层应用softmax函数将输出转换为动作值函数，并根据动作值函数采用ε‑greedy算法进行动作选择。