1.一种基于流量状态预测的队列智能管理方法,其特征在于,针对网络环境中由数据包组成的队列,执行如下步骤S1‑步骤S5,完成队列的管理:步骤S1:针对当前时刻的网络环境,根据当前时刻的队列长度Lt,基于GRU算法,经过更新门和重置门两个门控单元的计算,输出预测的下一时刻的队列长度Lt+1,完成网络流量状态预测;
步骤S2:以下一时刻的队列长度Lt+1、当前时刻的丢包率Rdeq和队列延迟dt,组成当前时刻的网络状态 ;
步骤S3:基于策略神经网络和目标神经网络组成智能体,智能体监测当前时刻的网络状态St,当队列中存在队列延迟时,智能体根据当前时刻的网络状态St,基于ε‑greedy策略决策并输出针对数据包的动作at;
步骤S4:设置奖励函数,根据智能体所输出的动作at,智能体获得相应的奖励rt,并更新网络状态St+1;基于网络状态St、动作at、奖励rt、网络状态St+1,组成经验样本存储到经验回放池中;
步骤S5:当经验回放池中的经验样本数量超过预设的最小批量值,智能体从经验回放池中随机选取经验样本,对策略神经网络和目标神经网络进行训练并更新权重,完成队列的管理。
2.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S1的具体步骤如下:步骤S1.1:设置更新门zt如下式:
;
其中, 为更新门的权重矩阵, 为上一时刻的隐藏状态, 为更新门中上一时刻隐藏状态 的权重矩阵, 为当前时刻t的队列长度;
步骤S1.2:设置重置门Rt如下式:
;
其中, 为重置门的权重矩阵, 为重置门中上一时刻隐藏状态 的权重矩阵;
步骤S1.3:计算当前时刻的候选隐藏状态 如下式:;
其中, 为权重矩阵, 为偏置向量;
步骤S1.4:最终的隐藏状态 的计算公式如下式:;
式中, 为当前时刻的候选隐藏状态, 为上一时刻的隐藏状态, 为更新门。
3.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S3中的ε‑greedy策略如下式:;
式中,at表示针对数据包的动作,x表示随机变量,ε表示衰减参数, 表示当前时刻网络状态的Q值函数,由策略神经网络计算,其中,St表示当前时刻网络状态,a表示智能体可执行的动作,θ表示策略神经网络的权重; 表示智能体可执行的动作a中使当前时刻网络状态的Q值函数 最大的动作;
衰减参数ε如下式:
;
式中, 为ε的初始值, 表示ε的最小值, 为衰减因子,steps为迭代次数。
4.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S3中针对数据包的动作at包括丢弃和保留,如果智能体所决策的动作是丢弃,则 ,如果智能体所决策的动作是保留,则 。
5.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S4中设置奖励函数的具体步骤如下:步骤S4.1:设计吞吐量奖励函数 ;设计时延奖励函数,分别如下式:
;
;
其中, 为当前周期内的平均网络吞吐量, 是上一个周期内的平均网络吞吐量; 是期望排队时延, 是当前排队时延, 通过队列长度和出队速率 计算得出;δ和μ是吞吐量奖励函数和时延奖励函数之间的缩放因子; 和 的计算如下式:;
;
其中, 是队列的数据包数量, 是丢弃数据包的数量,Lt是当前时刻的队列长度,当 为0时,将 也设置为0;
步骤S4.2:设置clip函数将奖励rt裁剪为对应于‑1到1之间的值,表示为下式:;
当 时,将奖励r t 赋值为‑1;当
时,奖励rt等于其本身;当
时,将奖励rt赋值为1。
6.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S5具体步骤如下:步骤S5.1:智能体以网络状态St、动作at、奖励rt、网络状态St+1组成一个经验样本,以元组形式存储到经验回放池中;
步骤S5.2:当经验回放池中的经验样本数量超过预设的最小批量值,智能体从经验回放池中随机选取经验样本i;
步骤S5.3:根据选取的经验样本i,策略神经网络计算当前经验样本i对应的网络状态的Q值函数 ,其中,Si、ai、θ分别为当前经验样本i对应的网络状态、动作,以及策略神经网络的权重,目标神经网络计算下一个经验样本i+1对应的网络状态的目标Q值函数,其中,Si+1、a、分别为下一个经验样本i+1对应的网络状态、智能体可执行的动作、目标神经网络的权重;
步骤S5.4:利用梯度下降最小化损失函数训练策略神经网络和目标神经网络,并更新策略神经网络的权重θ、目标神经网络的权重 。
7.根据权利要求6所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S5.4中的损失函数具体如下式:;
式中,loss表示损失函数,ri为根据选取的经验样本i,智能体所获得的奖励,γ 为奖励折扣因子,E表示数学期望。
8.根据权利要求7所述的一种基于流量状态预测的队列智能管理方法,其特征在于,步骤S5.4中训练策略神经网络和目标神经网络时,采用Xavier initializer初始化策略神经网络和目标神经网络的权重,并使用Adam优化器进行训练优化。
9.根据权利要求1所述的一种基于流量状态预测的队列智能管理方法,其特征在于,策略神经网络和目标神经网络为多层感知器,具有两个隐藏层,每个隐藏层包含64个神经元;
在每个隐藏层部署ReLU激活函数,激活函数的定义为 ,y表示进入神经元的输入向量,并在输出层应用softmax函数将输出转换为动作值函数,并根据动作值函数采用ε‑greedy算法进行动作选择。