1.一种弹性光网络的频谱分配方法,其特征在于,包括:
当接收到目标流量请求时,获取所述目标流量请求、待调整分区的弹性光网络的当前环境状态以及已训练的目标频谱分配行动网络;其中,所述当前环境状态包括所述弹性光网络的频谱可用性分布和若干个所述目标流量请求对应的当前候选路径;所述当前候选路径根据目标流量请求的源节点、目的节点和频谱需求,以及所述弹性光网络的当前网络状态的频谱可用性分布得到;所述频谱分配行动网络包括第一图卷积神经网络、第一递归神经网络、第一全连接层和柔性最大传递函数层;
将所述当前环境状态的各个当前候选路径转换成当前链路拓扑信息;
将所述当前链路拓扑信息输入到所述第一图卷积神经网络进行特征提取,得到所述链路拓扑信息的链路拓扑特征;将所述链路拓扑特征输入到所述第一递归神经网络进行特征聚合,得到各个所述当前候选路径的路径级特征;将所述目标流量请求、所述频谱可用性分布和所述路径级特征输入到所述第一全连接层和柔性最大传递函数层进行概率转换,得到各个所述路径级特征对应的所述当前候选路径的频谱分配概率,并根据所述频谱分配概率输出所述目标频谱分配动作;
其中,将所述当前链路拓扑信息输入到所述第一图卷积神经网络进行特征提取,得到所述链路拓扑信息的链路拓扑特征,其过程如下公式所示:;
其中, 为其中一个所述当前候选路径第 层节点的特征,且对于输入层,为所述当前链路拓扑信息的节点特征; 为其中一个所述当前候选路径的第 层节点的特征,也可以表示为所述链路拓扑信息的链路拓扑特征;为非线性激活函数;属于输入图的度矩阵,所述输入图的度矩阵是一个对角矩阵,其中每个对角元素给出相应节点的度数,; ,其中 为链路特征, 是N × N单位矩阵; 为权值矩阵,是一个N × F矩阵,受到所述目标频谱分配行动网络的网络参数影响;
所述将所述链路拓扑特征输入到所述第一递归神经网络进行特征聚合,得到各个所述当前候选路径的路径级特征,如下公式所示:; ;
其中, 为输出,表示所述路径级特征;和 为激活函数;、 、 为维度大小相等的可训练权重矩阵,受所述目标频谱分配行动网络的网络参数影响; 为输入,表示所述链路拓扑信息的链路拓扑特征。
2.根据权利要求1所述的弹性光网络的频谱分配方法,其特征在于,所述目标频谱分配行动网络的训练步骤,包括:获取若干个样本弹性光网络接收到第一流量请求时的第一环境状态以及预设数量的第二流量请求时的第二环境状态;所述第一环境状态包括若干个与所述第一流量请求对应的第一候选路径;所述第二流量请求的接收时间晚于所述第一流量请求的接收时间,所述第二环境状态包括若干个与所述第二流量请求对应的第二候选路径;
将所述第一环境状态的各个第一候选路径转换成第一链路拓扑信息;将所述第二环境状态的各个第二候选路径转换成第二链路拓扑信息;
将所述第一链路拓扑信息和所述第二链路拓扑信息分别输入到预构建的初始频谱分配行动网络,得到第一频谱分配动作以及预设数量的第二频谱分配动作;
获取所述第一频谱分配动作对应的第一瞬时奖励以及预设数量的所述第二频谱分配动作对应的第二瞬时奖励;
将所述第一链路拓扑信息和第一瞬时奖励,以及最后一个所述第二流量请求的所述第二链路拓扑信息和对应的第二瞬时奖励,输入到预构建的频谱分配批评网络,得到第一价值函数和第二价值函数;
根据所述第一瞬时奖励、多个所述第二瞬时奖励、所述第一价值函数和所述第二价值函数,获得优势函数;所述优势函数用于指示所述初始频谱分配行动网络和所述频谱分配批评网络的网络参数调整方向;
根据所述优势函数调整所述初始频谱分配行动网络的网络参数,得到所述目标频谱分配行动网络。
3.根据权利要求2所述的弹性光网络的频谱分配方法,其特征在于,
所述频谱分配批评网络包括第二图卷积神经网络、第二递归神经网络、第二全连接层和线性输出层;
所述将所述第一链路拓扑信息和第一瞬时奖励,以及最后一个所述第二流量请求的所述第二链路拓扑信息和对应的第二瞬时奖励,输入到预构建的频谱分配批评网络,得到第一价值函数和第二价值函数的步骤,包括:将所述第一链路拓扑信息输入到所述第二图卷积神经网络进行特征提取,得到第一链路拓扑特征;将所述第一链路拓扑特征输入到所述第二递归神经网络进行特征聚合,得到各个所述第一候选路径的第一路径级特征;将所述第一路径级特征输入到所述第二全连接层和线性输出层进行价值转化,得到各个所述第一候选路径对应的第一价值函数;
将所述最后一个第二流量请求的所述第二链路拓扑信息输入到所述第二图卷积神经网络进行特征提取,得到第二链路拓扑特征;将所述第二链路拓扑特征输入到所述第二递归神经网络进行特征聚合,得到对应的各个所述第二候选路径的第二路径级特征;将所述第二路径级特征输入到所述第二全连接层和线性输出层进行价值转化,得到与最后一个第二流量请求对应的各个第二候选路径对应的第二价值函数。
4.根据权利要求2或3所述的弹性光网络的频谱分配方法,其特征在于,所述根据所述第一瞬时奖励、多个所述第二瞬时奖励、所述第一价值函数和所述第二价值函数,获得优势函数,包括:通过以下公式,计算出所述优势函数:
; ;
;
其中, 为所述优势函数; 为所述流量请求的顺序; 为排序是第1个
的流量请求; 为排序是最后1个的流量请求; 为对应的流量请求的频谱分配动作;
为预设的折扣因子; 为接收到对应的流量请求的瞬时奖励;为所述第一流量请求和所述第二流量请求的总数量; 为所述第一价值函数; 为所述第二价值函数。
5.根据权利要求4所述的弹性光网络的频谱分配方法,其特征在于,所述根据所述优势函数调整所述初始频谱分配行动网络的网络参数,得到所述目标频谱分配行动网络的步骤,包括:通过以下公式,调整所述目标频谱分配行动网络的网络参数:
;
其中, 为所述目标频谱分配行动网络的网络参数, 为调整后的所述目标频谱分配行动网络的网络参数, 为所述目标频谱分配行动网络的学习速率, 为劈形算符,为策略分布的熵, 为熵正则化项的强度。
6.根据权利要求4所述的弹性光网络的频谱分配方法,其特征在于,还包括:根据所述优势函数调整所述频谱分配批评网络的网络参数。
7.根据权利要求6所述的弹性光网络的频谱分配方法,其特征在于,所述根据所述优势函数调整所述频谱分配批评网络的网络参数的步骤,包括:通过以下公式,调整所述目标频谱分配批评网络的网络参数:
;
其中, 为所述目标频谱分配批评网络的网络参数, 为调整后的所述目标频谱分配批评网络的网络参数,为所述目标频谱分配批评网络的学习速率, 为偏导数。
8.一种弹性光网络的频谱分配装置,其特征在于,包括:
数据和网络获取模块,当接收到目标流量请求时,获取所述目标流量请求、待调整分区的弹性光网络的当前环境状态以及已训练的目标频谱分配行动网络;其中,所述当前环境状态包括所述弹性光网络的频谱可用性分布和若干个所述目标流量请求对应的当前候选路径;所述当前候选路径根据目标流量请求的源节点、目的节点和频谱需求,以及所述弹性光网络的当前网络状态的频谱可用性分布得到;所述频谱分配行动网络包括第一图卷积神经网络、第一递归神经网络、第一全连接层和柔性最大传递函数层;
拓扑转换模块,用于将所述当前环境状态的各个当前候选路径转换成当前链路拓扑信息;
目标频谱分配动作获取模块,将所述当前链路拓扑信息输入到所述第一图卷积神经网络进行特征提取,得到所述链路拓扑信息的链路拓扑特征;将所述链路拓扑特征输入到所述第一递归神经网络进行特征聚合,得到各个所述当前候选路径的路径级特征;将所述目标流量请求、所述频谱可用性分布和所述路径级特征输入到所述第一全连接层和柔性最大传递函数层进行概率转换,得到各个所述路径级特征对应的所述当前候选路径的频谱分配概率,并根据所述频谱分配概率输出所述目标频谱分配动作;
其中,将所述当前链路拓扑信息输入到所述第一图卷积神经网络进行特征提取,得到所述链路拓扑信息的链路拓扑特征,其过程如下公式所示:;
其中, 为其中一个所述当前候选路径第 层节点的特征,且对于输入层,为所述当前链路拓扑信息的节点特征; 为其中一个所述当前候选路径的第 层节点的特征,也可以表示为所述链路拓扑信息的链路拓扑特征;为非线性激活函数;属于输入图的度矩阵;所述输入图的度矩阵是一个对角矩阵,其中每个对角元素给出相应节点的度数,; ,其中 为链路特征, 是N × N单位矩阵; 为权值矩阵,是一个N × F矩阵,受到所述目标频谱分配行动网络的网络参数影响;
所述将所述链路拓扑特征输入到所述第一递归神经网络进行特征聚合,得到各个所述当前候选路径的路径级特征,如下公式所示:; ;
其中, 为输出,表示所述路径级特征;和 为激活函数;、 、 为维度大小相等的可训练权重矩阵,受所述目标频谱分配行动网络的网络参数影响; 为输入,表示所述链路拓扑信息的链路拓扑特征。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的弹性光网络的频谱分配方法的步骤。
10.一种计算机设备,其特征在于:包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的弹性光网络的频谱分配方法的步骤。