1.一种基于状态感知的网络切片资源管理方法,其特征在于:在该方法中,将存在移动UE的接入网切片的资源管理问题抽象成一个MDP模型,在模型中考虑了计算、链路和无线资源的联合分配,并在优化时延的同时降低虚拟网络功能(Virtual network function,VNF)迁移带来的数据损失;同时,考虑到未知的状态转移概率,采用深度强化学习(Deep Q Network,DQN)求解马尔科夫决策过程(Markov Decision Processes,MDP)问题。
2.根据权利要求1所述的一种基于状态感知的网络切片资源管理方法,其特征在于:所述计算、链路和无线资源的联合分配,具体包括:网络切片系统模型分为三层,其应用层主要负责为这个切片提供VNF构成服务功能链(Service function chain,SFC),通过SFC有序完成一系列协议栈功能;虚拟化层负责管理和控制整个切片网络,在本模型中具体包括资源管理和状态观测,物理层包含实现该切片的物理资源,包括DU池和CU池,且两者通过前传网络实现相互通信;CU池是由通用服务器组成的物理网络,DU池是由服务器和RRU组成的网络;切片内的UE集合为U,底层物理网络节点集合为N,链路集合为L,RRU集合为M和SFC集合为K。
3.根据权利要求2所述的一种基于状态感知的网络切片资源管理方法,其特征在于:所述计算、链路和无线资源的联合分配,具体包括:每次UE移动后,需要新的路径将数据从所连接的RRU传输到对应的SFC,新路径如果无法占有充足的链路资源,将会增加传输时延,这会严重降低频繁移动的时延敏感业务的服务质量;在调整SFC的资源分配时,其中一些VNF可能需要迁移到新的服务器上重新实例化;根据t时刻的资源分配策略,服务器n上有些VNF移动到 时,这两个服务器上的VNF分布情况发生了变化,此时需要为这新的VNF分布情况重新分配资源,所有的VNF需要重新实例化;由于重新实例化VNF是需要时间的,设服务器n上实例化所有VNF所需时间为μn,在μn时间内,服务器n上所有VNF停止工作;然而,UE发送数据是连续不断的,在μn时间内进入到服务器n上的数据不会被处理,而是直接忽略了,所以造成了数据丢失,也称为迁移损失;一方面,无线资源、计算资源和链路资源的联合分配可以降低时延,另一方面,调整资源分配时的VNF迁移又会带来很大的迁移损失;本模型中既要优化时延也要保证较低的迁移损失,所以联合优化时延和迁移损失;设这两个指标组成的效用函数为R(t),且R(t)表示为其中φ(t)为该切片在时刻t的迁移损失,D(t)为切片内的总时延,Υ是一个常数,等于切片中所有链路容量之和。
4.根据权利要求3所述的一种基于状态感知的网络切片资源管理方法,其特征在于:所述的切片内的总时延: UEu在接入网切片里的时延Du(t)包括四部分:数据在无线信道上的传输时延 数据从RRU传输到对应SFC的传输时延 以及数据在SFCku上的传输时延 和处理时延其中数据在无线信道上的传输时延 du(t)表示UEu在t时刻的数据发送速
率,Cu(t)表示UEu所占的无线带宽能传输的最大数据率;
其中数据从RRU传输到对应SFC的传输时延 参数
表示t时刻链路l在路径pu(t)上,否则为0; 表示路径pu(t)在链路l上占用的带宽资源;
τ是一个极小的常数,其目的是为了避免分母为0;
其中数据在 上的传输时延 表示时刻
中第j个VNF传输到相邻VNFj+1的数据速率,二进制参数 表示t时刻VNFj用链路l发j送数据,否则值为0; 表示VNF在链路l上占用的带宽资源用于发送数据给下一个相邻的VNF;
其中 的处理时延 表示时刻
实例化在服务器n上,否则其值为0; 表示时刻tVNFj在服务器上n上占用的计算资源。
5.根据权利要求1所述的一种基于状态感知的网络切片资源管理方法,其特征在于:所述的MDP模型包括:状态空间:状态空间定义为 其中,h表示切
片内所有RRU的无线信道状态,H表示信道状态空间;x表示RRU和UE的连接状态,X表示连接状态空间;d表示切片内所有UE的数据发送率状态,D表示数据发送率状态空间;表示物理网络的拓扑状态,ψ则是物理网络的拓扑状态空间;
动作空间:动作空间定义为A={(ar,ac,ab)|ar∈Ar,ac∈Ac,ab∈Ab},其中ar表示切片内的无线资源分配动作,Ar表示无线资源分配动作空间,其由切片内所有UE可能的无线资源分配方式组成;ac表示切片内的计算资源分配动作,且Ac表示其对应的动作空间;ab表示切片内的链路资源分配动作,Ab表示切片内的链路资源分配动作空间;
在t时刻系统状态为s(t)且采取动作a(t),有概率的会转移到系统状态s(t+1),设此转移概率为Pr(s(t),a(t),s(t+1));
其中,
在系统状态s(t)采取动作a(t)后,系统会获得立即回报R(s(t),a(t))其中, 由时延和迁移损失计算所得;设初始状态为s(t)的
动作策略为π,具体表示为,π={(s(t),a(t)),(s(t+1),a(t+1)),....,(s(t+T),a(t+T))},其中T表示迭代次数;由于每次采取动作后就会得到一个立即回报,则策略π下的长远期望回报 其中0<γ<1是折扣因子;由于该模型中的状态是各态历经的,则会存在一个稳定的无限期望长远回报 所以,将
优化目标转化为 其中Ω表示所有可能的策略的集合,最优策略
利用值函数贝尔曼迭代获得最优的策略,设状态s(t)的值函数为V(s(t)),且有等式V(s(t))=ρ(π),其中 表示当前动作回报,包括立即回报和未来回报;
当V(s(t))取最大值时,即为最优值函数,所对应的动作a即为当前状态下的最优动作;
当已知一系列状态的最优值函数,便可获得状态对应的最优动作,且一系列最优动作将组成最优的动作策略。
6.根据权利要求1所述的一种基于状态感知的网络切片资源管理方法,其特征在于:所述的MDP模型:利用DQN网络获取最优资源分配策略,在完成对DQN网络的训练后,求解步骤如下:设定一个空集合O,该集合用于存储每个时间槽的观测数据;
感知接入网切片状态信息s(t),将其存储到集合O中;
如果感知到UE移动,根据DQN输出的最优策略选取最优动作,完成接入网切片的计算、链路和无线资源分配;
否则等待下一个时隙,继续感知网络切片中UE状态,直到切片生命周期结束。