1.一种基于分布式A‑C的智能接入控制与资源分配方法,其特征在于:该方法包括以下步骤:
S1:针对无线接入网RAN网络下网络切片的智能资源动态分配优化问题,综合考虑用户数据隐私、接入控制与资源分配,建立基于eMBB切片用户传输速率最大化和URLLC切片用户时延最小化的接入控制与资源分配的网络切片模型;
S2:针对用户数据隐私,单个用户数据不具代表性,将联邦学习和强化学习融合,构建联邦强化学习框架;
S3:将针对联邦强化学习中单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP;
S4:针对建立的MDP中状态、动作空间连续,且状态转移概率未知,采用结合值函数和策略函数的A‑C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,联合优化eMBB切片用户的传输速率和URLLC切片用户的时延;
网络场景中包含单个基站和多个用户,且构建了支持多种异构切片请求服务的eMBB和URLLC两种类型的切片,且接入切片中的用户类型有设备和基站之间进行通信的用户CUEs、设备和设备D2D之间通信的用户DUEs,考虑DUEs用户由URLLC切片为其提供服务;
用集合 表示网络中总的物理资源块RB集合,N表示总的RBs数量;系统中总的eMBB切片用户集合表示为 URLLC切片服务的CUEs用户集合用表示,且URLLC切片中的DUEs用户集合表示为 进e u
一步,令 用 和 分别表示用户C‑UE和C‑UE到基站的信道增益,用gku u u
表示D ‑UE用户的信道增益;用 表示第k个D‑UE用户对第l个C‑UE用户产生的干扰信道u u e
增益,gl,k表示第l个C‑UE用户对第k个D ‑UE用户产生干扰信道增益; 表示第m个C ‑e
UE在时隙t占用第n个RB的瞬时传输功率,且有 表示第m个C‑UE用户在时隙t的队列积压长度,用 表示eMBB切片中的用户的最大队列长度; 和u u
分别表示第l个C ‑UE和第k个D ‑UE用户在时隙t占用第n个RB的传输功率,且有用户的接入控制与资源分配方法包含两部分内容:第一部分各个切片中的用户选择接入的业务量,即根据当前用户的队列长度和数据包到达率确定接入切片的业务量;第二部分根据各个切片中的业务请求队列和用户性能需求进行资源分配,其中包括每个用户的u u
RBs的分配以及功率分配,对于URLLC切片中还需考虑C‑UE用户和D‑UE用户间RBs资源的复用情况;具体定义如下:
e
对于eMBB切片中的C‑UE,用二进制变量 表示在时隙t将第n个RB分配给第me
个C ‑UE,如果执行了分配动作, 反之则不分配,同理 令e
为 第m个C ‑ UE用 户在时隙 t的业务到 达量,且有e
其中 表示C‑UE用户的随机业务到达量阈值, 表示第m个e e
C‑UE用户在时隙t允许接入的数据量, 表示第m个C ‑UE用户在时隙t的队列积压长2
度,用 表示eMBB切片中的用户的最大队列长度,σ是噪声功率,并且假设所有的用户有e
相同的噪声功率;令 表示第m个C ‑UE用户占用第n个RBs的瞬时下行链路传输速率,e
eMBB切片中的第m个C‑UE获得的最大下行链路传输速率为 求得eMBB切片中某一用户的平均传输速率为 为后续处理,对eMBB切片中用户的传输速率进行归一化处理,eMBB切片中传输和速率为对于URLLC切片中的用户用二进制变量 表示在时隙t把第n个RB分别u u u u
分配给第l个C ‑UE用户和第k个D‑UE用户,令 和 为第l个C ‑UE和第k个D‑UE用户的业务到达量,且有 和 且 和u u
用 表示第l个C ‑UE和第k个D‑UE用户在时隙t上的队u u
列积压长度,用 和 分别表示URLLC切片中的C‑UE和D‑UE的最大队列长度, 和u u
分别表示第l个C‑UE用户和第k个D‑UE用户在时隙t允许接入的数据量; 和 表u u u
示第l个C ‑UE和第k个D ‑UE用户的平均传输速率, 和 分别表示第l个C ‑UE和第k个u
D‑UE用户的平均队列长度,URLLC切片中用户的平均时延进行归一化处理,则URLLC切片中u u
C‑UE和D‑UE用户的时延奖励表示为e,req e
令R 表示eMBB切片用户的传输速率阈值,对C ‑UE的传输速率性能需求为:u u
和 分别表示C‑UE和D‑UE用户的时延阈值概率;从而URLLC切片中的u u
C‑UE和D‑UE用户的时延约束表示为:u u
和 分别表示URLLC切片中C‑UE和D ‑UE用户的传输速率u u
阈值, 和 是C‑UE和D‑UE用户能接受的最大中断概率;URLLC的可靠性需求约束表示为:
以联合优化eMBB切片用户传输速率和URLLC切片用户时延为目标的流量接入控制、物理资源块、功率分配、物理资源块复用采用如下目标函数:s.t.
其中,
2.根据权利要求1所述的一种基于分布式A‑C的智能接入控制与资源分配方法,其特征在于:所述S1中,将流量接入控制、各种资源分配与eMBB切片用户的传输速率和URLLC切片e
用户的平均时延建立关联,包括:eMBB切片中的C‑UE用户的平均和传输速率 与RBs和传u u
输功率的分配密切联系;URLLC切片中的C‑UE用户和D‑UE用户的平均和时延 与接入的数据量、分配的RBs和传输功率密切相关;RAN切片的系统优化模型为:则优化目标为:max{ψ}。
3.根据权利要求1所述的一种基于分布式A‑C的智能接入控制与资源分配方法,其特征在于:所述S2中,联邦强化学习中,包含单个基站和多个用户,将基站作为全局联邦智能体,用户作为本地智能体,构建分布式架构;对于每个进行本地模型训练的智能体用户,引入强化学习中结合值函数和策略函数的A‑C学习协助分布式智能体进行本地决策,通过不断地与动态环境交互来进行本地模型更新;网络中所有的智能体在利用A‑C学习进行本地模型训练后,将其本地权重参数上传给基站,基站收到网络中所有本地智能体的本地权重参数后,利用其进行全局权重参数的更新,从而构成分布式A‑C学习框架FLAC。
4.根据权利要求1所述的一种基于分布式A‑C的智能接入控制与资源分配方法,其特征在于:所述S3中,单个用户建立的接入控制与资源分配过程转化为具有连续状态和动作空间的马尔可夫决策过程MDP包括:MDP定义为一个多元组 其中 代表状态空间, 是动作空间, 表示不同状态之间的转移概率, 是奖励函数;状态空间由当前时隙用户的队列长度和业务到达率共同决定,动作空间是流量接入控制与资源分配,转移为用户在某一状态下执行接入控制与资源分配后转移到下一个状态的概率: 其中 是用户u在时隙t的状态, 为用户u在时隙t的动作,f是状态转移概率密度函数;
奖励函数是当前用户在状态 下采取动作 后得到一个即时奖励,即:
5.根据权利要求1所述的一种基于分布式A‑C的智能接入控制与资源分配方法,其特征在于:所述S4中,采用结合值函数和策略函数的A‑C学习与环境不断进行交互,且各个智能体间相互协作学习,动态调整网络切片的接入控制与资源分配方法,将其与所述的MDP结合,将接入控制与资源分配目标转化为:寻找一个策略π,最大化目标函数:其中
u u u u
动作 来自数θ构建的参数化策略为πθ(a |s)=Pr(a|s ,θ),代表在一定状态下执行某个动作概率的映射,即对于当前的队列长度和数据包到达情况,选择某个流量接入控制u
与资源分配方法的概率;采用函数逼近方法来估计值函数,即利用本地权重参数ω近似状u u
态‑动作值函数Qω(s ,a),并通过最小化损失函数进行进行本地权重参数的更新;在利用A‑C学习算法进行本地模型训练后,本地智能体将会发送本地权重参数 给基站以更新全局权重参数,以制定全局策略。