利索能及
我要发布
收藏
专利号: 2021105237920
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于DQN的多业务低轨卫星资源分配方法,其特征在于:包括以下步骤:S1:建立基于低轨卫星多业务的联合功率和信道分配模型;

S2:将多波束低轨卫星通信系统资源分配映射为智能体在环境中交互学习获得最大化长期收益的问题;

S3:通过状态重构及DQN算法对步骤S2中的问题进行求解。

2.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:所述步骤S1具体包括:

S11:卫星网络为用户U提供S={s|s=1,2,...,S}种不同的应用服务,每种服务的优先级权值设置为W=[ω1,ω2,...,ωS],时隙t时波束n的信道分配状态表示为K是波束n中正在服务的呼叫数,其中, 表示业务类型, 表示呼叫类型, 为新呼叫, 为切换呼叫,所有波束的信道分配状态构成卫星的信道分配矩阵,表示为V(t)={υ1(t),υ2(t),...,υn(t)};

S12:对于每个新呼叫,其状态表示为 其中i是当前新呼叫用户数,表示业务类型, 表示呼叫类型,不同时刻下,V(t)会随着用户u(t)的到达或离开而变化,对应分配或释放相应的资源;

S13:用户与卫星之间的端到端时延满足低轨卫星单波束的覆盖时间约束,即业务s的总平均端到端时延 和 分别表示业务s的平均排队时延和下行链路的传播时延,T=L/vsat为波束覆盖时长,vsat是低轨卫星运行速度,L为已知的卫星覆盖区域直径;

S14:队列稳定性是卫星系统为每个业务构建相应的排队队列Qs(t)满足时,队列是稳定的,其中,Qs(t)表示业务s在时隙t开始时的卫星中缓冲区队列长度,E为队列的期望。

3.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:所述步骤S2中具体包括:

S21:状态空间定义为st={V(t),P(t),Qs(t),u(t)},其中,V(t)为时隙t卫星的信道分配信息,P(t)为功率分配信息,Qs(t)为时隙t业务的队列长度,u(t)为时隙t新请求业务的用户信息;

S22:动作空间定义为at={xnc(t),p(t)},其中,xnc(t)表示时隙t波束n中的信道c是否为用户分配信道,xnc(t)=1即时隙t将波束n中的信道c分配给用户,反之xnc(t)=0则不分配,p(t)为用户分配功率的大小;

S23:奖励函数定义为 系统即时奖励是网络中所有新业务请求用户的即时奖励之和,等价于 其中,ωS为用户的服务类型为s时的权重值,κ反映用户的优先级,即切换用户的优先级高于新接入用户,当新用户请求时,将奖赏收益值设置为与传输速率有关的值,则系统吞吐量表示为 其中,Runc表示为用户分配的传输速率,Rth为用户正常传输所需的最小传输速率;当为用户分配的传输速率低于该用户正常传输所需的最小传输速率Rth时,表明此次分配策略效果较差,给予反馈 (仿真中将 设置为‑1);反之给予反馈

4.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:步骤S3中所述的状态重构过程包括:S311:将与新用户相关的波束简化为源波束周围一圈的波束,被压缩后的波束为其中, 表示新请求业务ut的源波束与其周围波束n之间的偏角,h为卫星高度,θ3dB为3dB波束宽度;

S312:压缩后的功率分配信息和卫星信道分配信息分布表示为 和*

S313:进一步将压缩后的卫星信道分配信息V (t)和用户u(t)中的信息通过one‑hot编* *

码进行处理为 重构后的状态空间为φ(st)={U(t),P(t),Qs(t)}。

5.根据权利要求4所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:步骤S3中所述的DQN算法求解过程包括:S321:利用经验回放池和目标Q网络用于Q网络更新;

S322:通过梯度下降方法对Q网络进行反向训练更新,并采用自适应估计优化器加快收敛速度。

6.根据权利要求5所述的基于DQN的多业务低轨卫星资源分配方法,其特征在于:DQN算法求解过程具体包括以下步骤:

1)初始化低轨卫星场景相关参数,Q网络、目标Q网络参数,权值θ=θ,初始化经验回访池;

2)获取低轨卫星系统信道分配信息V,功率分配信息P,业务队列信息Q和新请求业务用户的信息u;

3)任意episode,随机初始化一个状态S0;

4)利用状态重构对状态进行处理φ0=φ(s0);

5)任意时间t,通过ε‑greedy策略随机选择一个概率p;

6)当p≤ε,随机选择动作at∈a;否则,选择动作

7)执行动作at改变环境状态,得到奖励值rt,并观察下一个状态st+1;

8)将st+1处理为φt+1=φ(st+1),并将<φ(st),at,rt,φ(st+1)>存储到经验回放池中;

9)从经验回放池中随机抽取选取一批样本<φ(st),at,rt,φ(st+1)>;

2

10)计算损失函数Loss(θ)=E[(yt)‑Q(φ(st),at;θ) ];

11)利用Adam算法计算一阶矩和二阶矩的偏差修正项;

12)通过神经网络的反向传播算法,更新网络的权重参数θ;

13)每隔固定步数G用Q网络参数θ更新目标Q网络参数θ,输出DQN网络的权重参数θ及每个新请求用户分配相应资源的策略。