1.一种基于迁移A-C学习的服务功能链部署方法,其特征在于:该方法包括以下步骤:
S1:建立基于虚拟网络功能(Virtual Network Function,VNF)放置、计算资源、物理链路带宽资源和前传网络带宽资源联合分配的系统端到端时延最小化服务功能链(Service Function Chain,SFC)部署的网络模型;
S2:将已建立的时延最小化模型转化为具有连续状态和动作空间的离散时间马尔科夫决策过程(Markov Decision Process,MDP);
S3:针对该MDP中状态、动作空间连续,且转移概率未知,采用A-C学习与环境进行不断交互动态调整SFC部署策略,优化系统端到端时延;
S4:针对同一系统在不同时段SFC的部署任务不尽相同,为实现并加速该A-C学习方法在相似目标任务中的收敛过程,采用迁移A-C学习实现利用源任务中学习到的SFC部署知识快速寻找目标任务的部署策略。
2.根据权利要求1所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S1中,所述SFC部署的网络模型为:
虚拟网络拓扑基于集中式单元/分布式单元(Centralized Unit/Distributed Unit,CU/DU)的两级云无线接入网(Cloud-Radio Access Network,C-RAN)架构,用带权无向图G={N,L}表示,其中,设备节点集N由DU池节集ND与CU池节点集NC组成,物理链路集L由DU池链路集LD、CU池链路集LC和前传网络LNGFI构成;
设备节点nu的计算资源容量为 链路lv的带宽资源容量为 系统中的切片集合为K,Mk代表切片k中的SFC集合;由于一个切片中包含有多条相同服务类型的SFC,切片k的第m条SFC定义为SFCm,其在时隙t的队列长度为qk,m(t),并满足 其中qmax代表最大队列长度。
3.根据权利要求2所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S1中,SFC部署的过程分为两个阶段:第1阶段每个切片选择VNF放置方式,即确定VNF在DU、CU池的分布情况;第2阶段根据每个切片的放置方式分别为DU池、CU池的各个VNF进行资源分配,包括每个VNF映射到物理节点后的计算资源分配,虚拟链路映射到物理链路后的带宽资源分配,以及SFC处于DU末端VNF的前传网络带宽资源分配,处于CU末端的VNF不考虑分配带宽资源。
4.根据权利要求3所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S1中,将VNF放置、各类资源分配与系统中的各类时延建立关联性,具体包括:设备处理时延τ1(t)与计算资源分配密切相关;链路传输时延τ2(t)由池内物理链路传输时延和前传网络传输时延构成,与物理链路带宽资源和前传网络带宽资源分配密切相关;SFC在DU侧的排队时延τ3(t)由队列长度和数据包到达率决定;因此传输切片数据包的总平均端到端时延为: 则优化目标为:min{τ}。
5.根据权利要求4所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S2中,将所述时延最小化模型转化为具有连续状态和动作空间的马尔科夫决策过程(Markov Decision Process,MDP)具体包括:MDP定义为一个多元组 其中 是状态空间, 是动作空间, 是转移
概率, 是奖励函数;状态空间由系统内全部SFC的队列长度及其数据包到达率共同决定,动作空间是SFC的部署过程,包括VNF放置方式的选择和资源分配,转移概率为在一个状态采取某个部署动作后转移到下一个状态的概率:其中, 为时隙t的系统状态, 为时隙t的部署动作,f为状态转移概率密度函数;状态奖励函数为采取某个动作部署SFC后的系统端到端时延:Rt=-(τ1(t)+τ2(t)+τ3(t));此外,由于队列长度、数据包到达率以及资源分配都是连续动态变化的,因此,所述MDP具有连续的状态空间和动作空间。
6.根据权利要求5所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S3中,采用A-C学习与环境进行不断交互动态调整SFC部署策略,将其与所述MDP结合,将SFC部署目标转化为:寻找一个策略π,最大化目标函数:其中,Qπ(s,a)=E{Rt+βQπ(st+1,at+1)};动
(t) (t) (t)
作a 来自于一个随机策略π(a|s)=Pr(a =a|s =s),它代表了从状态到采取动作概率的映射,即对于当前的队列长度和数据包到达率,选择某种VNF放置方式和资源分配方案的概率。
7.根据权利要求6所述的一种基于迁移A-C学习的服务功能链部署方法,其特征在于:
在步骤S4中,一个A-C学习任务最终的策略πθ(s,a)=Pr(a|s,θ),代表在状态s下选择动作a的概率,但是这样的一个学习策略是适应当前环境和部署任务的,考虑将该部署策略的参数知识θ=(θ1,θ2,...θn)T迁移到其他相似目标学习任务上,使得目标任务能够较快收敛而不是从零开始学习,基于此,采用一种新的策略更新方法,整体策略 分为本地策略和外来策略 其中,本地策略为当前学习任务中根据环境状态生成的随机策略,外来策略 为其他相似任务中生成的随机策略, 为迁移率, 为迁移率因子,即有当t→∞,ζ(t)→0。