1.一种光网络动态频谱分区方法,其特征在于,包括如下步骤:接收到第一流量请求时,获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励;所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区的边界后,各个所述频谱分区支持的流量种类数的平均程度;
将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络,得到对应样本弹性光网络的第一频谱分区动作评分值;
接收到第二流量请求时,将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络,得到对应样本弹性光网络的最大的第二频谱分区动作评分值;
根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值,获得对应的目标频谱分区动作评分值;
根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值,对所述初始频谱分区神经网络进行训练,得到目标频谱分区神经网络;
当接收到第三流量需求时,将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络,得到各个所述第三频谱分区动作对应的频谱分区动作评分值;
采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界,得到调整后的频谱分区。
2.根据权利要求1所述的光网络动态频谱分区方法,其特征在于,获取各个样本弹性光网络的第一瞬时奖励的步骤,包括:根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界;
通过以下公式,计算各个样本弹性光网络的所述频谱分区支持的流量种类平均数:;
其中, 为对应的样本弹性光网络的所述频谱分区支持的流量种类平均数,为所述频谱分区的总数量, 为第 个频谱分区支持的流量种类数,为接收到第一流量请求的时刻;
通过以下公式,计算所述第一瞬时奖励:其中,为所述第一瞬时奖励。
3.根据权利要求1所述的光网络动态频谱分区方法,其特征在于,所述根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值,获得对应的目标频谱分区动作评分值的步骤,包括:通过以下公式,计算所述目标频谱分区动作评分值:; ;
其中, 为所述目标频谱分区动作评分值,为所述第一瞬时奖励,为预设的折扣因子, 为所述最大的第二频谱分区动作评分值,为所述初始频谱分区神经网络的参数。
4.根据权利要求3所述的光网络动态频谱分区方法,其特征在于,所述根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值,对所述初始频谱分区神经网络进行训练,得到目标频谱分区神经网络的步骤,包括:根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值构建损失函数:
其中, 为所述损失函数的输出值, 为所述第一频谱分区动作评分值,为数学期望;
根据各个所述样本弹性光网络的所述损失函数的输出值,采用梯度下降算法更新所述初始频谱分区神经网络的参数,得到各个所述损失函数的输出值小于或等于预设阈值的目标频谱分区神经网络。
5.根据权利要求1所述的光网络动态频谱分区方法,其特征在于,获取若干个样本弹性光网络的预设的一个第一频谱分区动作的步骤,包括:获取一个随机数;
若所述随机数小于预设的固定值,从与所述样本弹性光网络对应的多个预设频谱分区动作中,随机选择一个确定为所述第一频谱分区动作;
否则,将与所述样本弹性光网络对应的多个预设频谱分区动作、第一环境状态和第一频谱分区信息输入到所述初始频谱分区神经网络,得到多个第一频谱分区动作评分值;将最大的所述第一频谱分区动作评分值对应的预设频谱分区边界动作确定为所述第一频谱分区动作。
6.根据权利要求2所述的光网络动态频谱分区方法,其特征在于,所述根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界的步骤,包括:根据预设的频谱分区动作合法性判断规则,判断所述第一频谱分区动作是否合法;若合法,对所述第一频谱分区信息执行所述第一频谱分区动作,以调整对应的样本弹性光网络的频谱分区边界;否则,不执行所述第一频谱分区动作。
7.根据权利要求6所述的光网络动态频谱分区方法,其特征在于,所述根据预设的频谱分区动作合法性判断规则,判断所述第一频谱分区动作是否合法的步骤,包括:从各个所述第一频谱分区信息中,获取相邻的第一分区边界的相对方位,根据所述第一分区边界的相对方位生成各个约束条件;
获取根据所述第一频谱分区动作,模拟调整对应的所述样本弹性光网络的频谱分区边界后的预测分区边界信息;
从所述预测分区边界信息中,获取相邻的模拟调整后的频谱分区边界的相对方位,以及最后一个模拟调整后的频谱分区边界的位置;
若所述模拟调整后的频谱分区边界的相对方位符合所述约束条件,且所述最后一个模拟调整后的频谱分区边界的位置不超过对应的样本弹性光网络的最后一个频隙的位置,确定所述第一频谱分区动作合法;否则,确定所述第一频谱分区动作不合法。
8.一种光网络动态频谱分区装置,其特征在于,包括:第一数据获取模块,接收到第一流量请求时,用于获取若干个样本弹性光网络的第一环境状态、第一频谱分区信息、预设的一个第一频谱分区动作和第一瞬时奖励;所述第一瞬时奖励用于指示根据所述第一频谱分区动作调整对应的所述样本弹性光网络的频谱分区边界后,各个所述频谱分区支持的流量种类数的平均程度;
第一频谱分区动作评分值计算模块,将所述第一环境状态、第一频谱分区信息和所述第一频谱分区动作输入到初始频谱分区神经网络,得到对应样本弹性光网络的第一频谱分区动作评分值;
第二频谱分区动作评分值计算模块,接收到第二流量请求时,用于将各个所述样本弹性光网络的第二环境状态、第二频谱分区信息和预设的多个第二频谱分区动作输入到所述初始频谱分区神经网络,得到对应样本弹性光网络的最大的第二频谱分区动作评分值;
目标频谱分区动作评分值计算模块,用于根据各个样本弹性光网络的第一瞬时奖励以及对应的最大的第二频谱分区动作评分值,获得对应的目标频谱分区动作评分值;
频谱分区模型训练模块,用于根据所述第一频谱分区动作评分值以及对应的所述目标频谱分区动作评分值,对所述初始频谱分区神经网络进行训练,得到目标频谱分区神经网络;
频谱分区模型用于模块,当接收到第三流量需求时,将待调整分区的弹性光网络的当前环境状态和预设的多个第三频谱分区动作输入到所述目标频谱分区神经网络,得到各个所述第三频谱分区动作对应的频谱分区动作评分值;
频谱分区调整模块,采用最大的所述频谱分区动作评分值对应的所述第三频谱分区动作调整所述待调整分区的弹性光网络的频谱分区的边界,得到调整后的频谱分区。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的光网络动态频谱分区方法的步骤。
10.一种计算机设备,其特征在于:包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的光网络动态频谱分区方法的步骤。