1.一种基于MDP的网络切片动态资源分配方法,其特征在于:该方法为:在每个离散时隙上,在保证各网络切片中所有时延敏感业务严格的时延要求的前提下,根据各网络切片中用户的缓存队列状态信息和服务器所耗电力的实时价格状态信息,以实现最大化网络吞吐量和最小化能量消耗之间的折中为目标,为切片中每个用户的服务功能链上的虚拟网络功能分配合适的计算资源量并动态地调整提供计算资源的服务器开启的数量;
保证各切片中每个用户的长期平均时延不大于某个时延上限,以此避免用户数据堆积而引起不必要的丢包或处理延迟,根据排队论中的Little定理,平均的队列长度和平均的时延是线性关系;
其中长期平均时延为:用户的缓存队列在长时间上求平均后的队列长度;
按照所述的计算资源动态分配算法,至少需要为每个用户提供的计算资源量满足其最低时延需求的计算资源;
在每个离散时隙上,所有开启的服务器分配给所有部署在其上的VNF计算资源量总和不能超过其计算资源容量,以满足每个服务器的资源约束条件;
电力实时价格状态在每个离散时隙的变化过程为马尔科夫链;
用户队列缓存状态在每个离散时隙的变化过程为马尔科夫链。
2.根据权利要求1所述的一种基于MDP的网络切片动态资源分配方法,其特征在于:所述网络切片中用户在每个时隙上的缓存队列更新过程为:其中 为:切片k中的第l个用户在下一个时隙开始时的队列长度;
为:切片k中的第l个用户在当前时隙开始时的队列长度;具体根据服从 参数的泊松过程随机生成;
为:切片k中的第l个用户在当前时隙上新到达的数据包个数;
为:切片k中的第l个用户在当前时隙上离开的数据包个数;
dQ为:用户队列缓冲区的最大队列存储的容量。
3.根据权利要求1所述的一种基于MDP的网络切片动态资源分配方法,其特征在于:所述为切片中每个用户的服务功能链上的虚拟网络功能分配合适的计算资源量并动态地调整提供计算资源的服务器开启的数量具体步骤为:在每个决策时隙开始时,收集各网络切片中所有用户的缓存队列状态信息和电力实时价格状态信息;
确定MDP的决策,该决策为从状态空间到行动空间的映射,其确定了当系统处于任一状态时,系统对当前各用户业务队列状态和电力实时价格状态采取的行动;
系统根据当前各用户业务队列状态信息和电力实时价格状态信息做出最优的服务器开启数量和计算资源分配策略,并获得一个瞬时报酬;
瞬时报酬为服务网络切片中用户获得的收益和服务器能量消耗的成本之差。
4.根据权利要求1所述的一种基于MDP的网络切片动态资源分配方法,其特征在于:所述目标为最大化系统长期平均报酬;其中长期平均报酬为在长时间上对系统获得的瞬时报酬求平均;
为了保证所述长期平均报酬最大化问题一定能收敛,引入一个折扣因子,表达对于系统而言与未来可能获得的收益相比,当前的收益将更具有价值,同时也保证长期平均报酬最大化问题的收敛性;
根据当前时隙的用户缓存队列状态和电力实时价格状态采取行动后会有一定的状态转移概率转移到下一状态,为避免对转移概率的依赖,引入决策后状态;决策后状态为在实施决定开启服务器数量和计算资源分配决策之后而用户数据到达之前系统所处的状态,描述了有哪些服务器需要开启并且各个服务器分配给各个VNF的计算资源量情况,与之相对的状态为决策前状态;决策前状态是指在实施行为之前系统所处的状态,反映了各切片中用户请求到达对系统产生的影响;
决策后状态和决策前状态之间的关系为决策后状态的值函数等效于以它为起点到达的决策前状态的值函数求数学平均。
5.根据权利要求4所述的一种基于MDP的网络切片动态资源分配方法,其特征在于:所述决策后状态的值函数和最优决策通过在线学习算法计算得到,具体步骤为:初始化所有可能的决策后状态的值函数,初始化拉格朗日乘子,初始化离散时隙t,初始化所有用户初始队列长度,设定初始参考状态;
观察当前时隙各切片中用户数据包的到达数和电力价格状态;
求出当前时隙使瞬时报酬最大的服务器开启数量和计算资源分配量的最优决策和各用户缓存队列数据包离开数;
记录当前时隙的最优策略和瞬时报酬;
按照在线学习的方法更新当前时隙决策后状态的值函数以及更新拉格朗日乘子;
更新当前时隙所有网络切片中用户的缓存队列状态信息和电力实时价格状态信息;
经过数次迭代后,判断是否满足收敛条件,
如果当前所述的服务器开启数量和计算资源分配方案不满足收敛条件,则重复以上步骤进行下一次迭代,如果当前所述的服务器开启数量和计算资源分配方案满足收敛条件,则算法终止。