1.一种基于强化学习的LEO卫星信道分配方法,其特征在于,包括以下步骤:(1)初始化LEO卫星系统相关参数,在用户接入LEO卫星网络之前,星上集中式资源池给各波束小区预分配固定数量的信道资源;
(2)在用户接入LEO卫星网络之后,若系统预分配的信道资源有富余,则系统回收富余信道到资源池;若系统预分配的信道资源无法满足用户需求,资源池将以动态分配的方式进行信道资源调度;
(3)当采取动态信道资源调度时,系统根据当前信道状况和用户接入情况构建状态空间、动作空间、奖励函数,利用Q‑Learning算法进行训练以寻找最优分配策略,训练结束后根据分配策略进行动态信道调度;
(4)系统进入下一业务请求时间间隔,以上述固定信道预分配和动态信道资源调度相结合的方式进行信道资源分配;
在步骤(1)中,星上集中式资源池是整个系统的核心部分,集信息处理、资源分配、资源收集于一体,各卫星间的资源通过交换结构相连并实时调配资源,交换结构下的中央管理单元集中管理BBU,集中式资源池不仅要对用户发出的业务请求进行处理并分配资源,同时还要根据各波束内资源的占用情况来进行相应的调度,以适应业务请求的非均匀分布特性;
在步骤(1)中,初始化LEO卫星系统相关参数,需要根据当前系统状况构建信道分配状态矩阵和信道功率分配矩阵,具体方法是:LEO卫星系统通过相控阵天线在地面上形成N个波束,用集合X={xn|n=1,2,…,N}表示,系统可用信道个数为M,信道用集合Y={ym|m=1,2,…,M}表示,用户集合用U={un,k|n=1,2,…,N,k=1,2,…,K}表示,第n个波束内的第k个用户表示为un,k;
系统采用波束间频率复用的方式分配信道资源,定义系统的信道分配状态矩阵V和信道功率分配矩阵P分别为:
其中,vn,m和pn,m分别表示第n个波束中第m个信道分配状态和发射功率,vn,m∈{0,1},vn,m=1表示信道ym在波束xn中被使用,否则未使用;
为衡量系统的信道分配性能,定义 为系统提供速率与用户请求业务速率之比,即供需比 为: 其中 系统提供的信道速率, 为用户请求业务速率;
系统根据实时状况初始化参数,资源池给各波束预分配信道。
2.根据权利要求1所述的基于强化学习的LEO卫星信道分配方法,其特征在于,在步骤(3)中,所述构建状态空间、动作空间、奖励函数的具体方法是:
1)根据系统内用户的信道分配情况来构建状态空间st,矩阵行数为各个波束中最大用户数,由于各波束内用户数量不同,所以取单波束最大用户数来重构矩阵;矩阵列数为系统波束个数,其中,wn,k为第n个波束下第k个用户的信道分配状况,该矩阵内任意一项wn,k∈{‑1,0,1},wn,k=‑1表示存在用户请求但未分配资源,wn,k=0表示当前状态下无用户请求,wn,k=1表示存在用户请求且已分配资源,当所有请求用户均已分配资源或者系统无可用资源时即达到终止状态,该次分配结束;
2)系统根据当前的状态从可用信道集合A(s)中选取合适的动作,将信道分配定义为动作空间at: 式中,m为系统给用户分配的信道,动作的选取规则是从可用信道集合A(s)中以概率ε随机选取动作进行探索,以概率1‑ε选取最大Q值的动作进行利用;
3)当系统资源丰富时,在保证各个信道不被堵塞的前提下,系统尽量给各用户分配更多的带宽来提高系统吞吐量,即最大化吞吐量准则,将奖励函数设置为:当系统资源匮乏时,系统要在用户服务不中断的情况下响应更多用户的请求,此时的信道分配原则是最小化系统供需方差,将奖励函数设置为:其中 系统提供的信道速率,
为用户请求业务速率;
4)将上述构建的状态空间、动作空间和奖励函数输入到Q‑Learning算法中训练,利用训练得出的Q值表引导系统进行动态信道调度。
3.根据权利要求1所述 的基于强化学习的LEO卫星信道分配方法,其特征在于,在步骤(3)中,所述Q‑Learning算法进行训练以寻找最优分配策略,是利用指数梯度下降和信息强度更新策略来加快算法收敛,其步骤包括:
1)在动作选择过程中,随机探索概率ε随训练步数的上升呈指数下降,即其中l0为最大训练步数,l训练步数,ε0为初始探索概率,e为自然指数;
2)只有当动作产生的奖励rt大于Q值表记录最大奖励rmax时才更新Q值表,定义动作的信息强度为: 式中Δ默认为1,利用启发式函数更新Q值表,定义启发式函数为:
其中Q(st,at)为状态St下动作at的Q值,J(st,at)为状态St下动作at的信息强度,∑iJ(st,ai)为状态St下所有动作的信息强度和。