1.基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,包括以下步骤:S1、给定第一流量模式,采用强化学习算法训练教师模型;
S2、调用训练好的教师模型,在第二流量模式下,生成学生模型的训练数据;
S3、在步骤S2中的第二流量模式下,将教师模型生成的数据通过知识蒸馏对学生模型进行训练,得到初步训练的学生模型;
S4、对步骤S3中经过初步训练的学生模型采用强化学习算法进行训练,学生模型学得第二流量模式的路由策略,完成基于深度强化学习和知识蒸馏的光网络路由。
2.根据权利要求1所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S1中,教师模型是一个全连接神经网络,教师模型的输出层输出的是对应输入状态k k
s(t)下K个状态‑动作对(s(t),a (t)),k∈{1,2,...,K}的Q值Q(s(t),a (t);ΘT),k∈{1,
2,...,K},其中,K表示新到达的流量请求的候选路径总数,s(t)表示t时刻教师模型的输入k
状态,a (t)表示t时刻状态下从K条候选路径中选择第k条路径的动作,ΘT表示教师模型训练得到的参数。
3.根据权利要求2所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S1中,假设在一个光网络拓扑环境下,给定一个第一流量模式,流量请求的源节点和目的节点在第一流量模式下随机选取,然后教师模型通过深度强化学习智能体与光网络环境交互进行训练,具体如下:
net tra
将在第一流量模式下得到的t时刻的光网络状态s (t)以及t时刻的流量请求状态snet tra
(t)组成一个L×(W+K)的第一流量模式下的输入状态矩阵s(t)=[s (t),s (t)]L×(W+K),net lw
其中光网络状态s (t)是一个L×W的矩阵,矩阵中的元素E 表示链路l上波长w的可用性,lw lw
如果可用,则E 为1,否则E 为0;L为光网络拓扑中链路的总数,W为链路中波长的总数;流tra lk
量请求状态s (t)是一个L×K矩阵,矩阵中的元素F 的定义如下表示:
4.根据权利要求3所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,将第一流量模式下的输入状态矩阵s(t)作为教师模型的输入,通过教师模型估计的Q值与目标Q值之间的均方误差建立损失函数L(ΘT),其中,目标Q值由即时奖励r(t)和下一状态s(t+1)的折扣最大Q值组成,下一状态s(t+1)的折扣最大Q值通过将下一状态s(t+1)的教师模型输出的最大Q值乘以一个折扣系数γ得到;损失函数L(ΘT)的公式表达如下:k
其中,a (t+1)表示在下一状态s(t+1)下从K条候选路径中选择第k条路径的动作,ΘT表示教师模型训练得到的参数,表示对估计的Q值与目标Q值平方差求期望;
最后,利用梯度下降法来最小化损失函数L(ΘT),得到训练好的教师模型。
5.根据权利要求4所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S2中,假设在一个光网络拓扑环境下,在一个第二流量模式下,流量请求的源节点和目的节点在第二流量模式下随机选取;
将在第二流量模式下得到的t时刻的光网络状态 与t时刻的流量请求状态组成第二流量模式下的输入状态矩阵 输入到步骤S1中得到的训练好的教师模型中,训练好的教师模型根据给出该输入状态下,每个动作对应的Q值 这些Q值接下来将会用作学生模型训练时的标签数据。
6.根据权利要求5所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S3中,根据步骤S2中得到的输入状态下的一组动作的Q值引入知识蒸馏的方法,学生模型通过学习教师模型的知识进行训练,具体如下:利用softmax将一组Q值 转换为概率分布qτ(sn(t);Θ),经过softmax变换之后,每个状态‑动作对的无界Q值被设置在0到1之间,但不改变其相对于其他状态‑动作对的相对排名,具体由以下的公式表示:
其中,fτ(·)是带有温度τ的softmax函数,τ>0,具体如下:其中,Θ∈{ΘT,ΘS},ΘT和ΘS分别表示由教师模型和学生模型训练得到的参数。
7.根据权利要求6所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S3中,在分别得到教师模型和学生模型输出的概率分布qτ(sn(t);ΘT)和qτ(sn(t);
ΘS)之后,将qτ(sn(t);ΘT)和qτ(sn(t);ΘS)经过一个交叉熵函数H(·,·),然后通过最小化该交叉熵函数来拟合教师模型和学生模型的概率分布,得到初步训练的学生模型。
8.根据权利要求7所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S3中,初步训练中,学生模型的损失函数表示为LKD(ΘS):LKD(ΘS)=H(qτ(sn(t);ΘT);qτ(sn(t);ΘS));
其中,H(·,·)表示交叉熵函数,qτ(·;·)表示一组Q值经过softmax归一化变换后的概率分布。
9.根据权利要求8所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S4中,利用深度强化学习算法对步骤S3中得到的初步训练的学生模型进行训练;
在第二流量模式下,流量请求随机地在第二流量模式下选取源节点、目的节点;将L×(W+K)的第二流量模式下的输入状态矩阵 输入初步训练的学生模型,输出该输入状态下的一组Q值
10.根据权利要求9所述的基于深度强化学习和知识蒸馏的光网络路由方法,其特征在于,步骤S4中,对初步训练的学生模型进行训练时,学生模型的损失函数 为:最后,通过最小化学生模型的损失函数 优化学生模型,完成基于深度强化学习和知识蒸馏的光网络路由。