利索能及
我要发布
收藏
专利号: 2023104623509
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于动态时分双工通信的自回程毫米波蜂窝网络通信方法,包括如下步骤:S1.获取目标网络的网络参数数据信息;具体包括如下步骤:目标网络为一个带无线自回程的毫米波异构蜂窝网络;所述网络包括一个宏蜂窝和N个小蜂窝;宏基站MBS作为宏蜂窝内所有小基站SBS的带内无线回程连接至核心网的枢纽;

宏基站MBS用符号m0表示,宏基站范围内的所有小基站SBS用集合M ={1,2,...,N}表示;集‑合M=M ∪{m0}表示所有基站,且集合元素个数为N+1;宏基站MBS范围内的所有用户设备UE表示为 用户设备UE仅选择小基站SBS作为关联基站,并将数据通过小基站SBS中继到宏基站MBS从而进入核心网,或者接收小基站SBS从宏基站MBS转发的数据;

设定宏基站MBS、小基站SBS和用户设备UE均同时配备了毫米波频段和sub‑6GHz频段的无线接口,其中毫米波频段用于数据传输,sub‑6GHz频段用于控制信息交换;

设定每个小基站SBS均配备了Qsbs个毫米波天线,Qsbs为毫米波天线的数量,以便具有与最多Qsbs个用户设备UE同时连接的能力;每个用户设备UE仅配备一根毫米波天线来连接最多一个小基站SBS;宏基站MBS配备了足够多的毫米波天线以保证自身能够同时向所有小基站SBS发送数据,或者同时从所有小基站SBS接收数据;

设定每个小基站SBS的上下行数据到达过程遵守泊松分布;每个小基站SBS需要为自身的每一个关联的用户设备维护一个DL缓冲区,来满足用户设备的下行流量缓存需求;同时,每一个用户设备均设置一个UL缓冲区,来满足自身的上行流量的缓存需求;设定任何时刻,针对每个小基站都至少有Qsbs个用户设备的DL缓冲区和UL缓冲区非空,以保证上下行通信信道处于非空闲状态;采用分时长期演进方案,通过配置DL子帧和UL子帧的比例来适应不对称的上下行流量需求;一个通信帧包括7种无线帧配置,每帧长度为10ms,由10个连续的帧长的1ms的子帧组成;每个子帧有三种类型,U子帧、D子帧和S子帧,其中U子帧表示UL流量,D子帧表示DL流量,S子帧表示从D子帧到U子帧的转换子帧;将S子帧视为D子帧;

根据无线频谱的使用模式,采用带内传输模式进行传输,接入链路和回程链路共享相同的频谱资源;

采用扇形天线模型进行夹角的计算;仅对接入链路的发射功率进行调节,并认定回程链路的发射功率为固定值;

S2.根据步骤S1获取的数据信息,以网络总速率为优化目标,以网络吞吐量、传输时间、网络传输功率、网络节点连接数和网络速度为约束条件,构建自回程毫米波蜂窝网络通信模型;具体包括如下步骤:采用如下算式构建优化目标:

t

式中X为第t个子帧期间的用户设备关联情况,且表示第t个子帧期间第u个用户设备与第n个小基站互相关联, 表示第t个子帧期间第u个用户设备与第n个小基站无关联;Γ为任意小基站在第t个子帧归一化后的RA/BH段传输持续时间 的取值集合,RA/BH段为小UE基站处于接入或者回程的时间段,且 Z为每个子帧的时隙数;P 为第i个用户设备在第t个子帧期间分配给接收节点j的发射功率 的取值集合,且L为设定的正整数, 为用户设备的最大功率;

BS

P 为第i个小基站在第t个子帧期间分配给接收节点j的发射功率 的取值集合,且K为设定的正整数, 为小基站的最大功率;

Tt为目标网络在第i个子帧期间的总速率,且表示第n个小基站的第t个子帧类型为上行子帧, 表示第n个小基站的第t个子帧类型为下行子帧, 为属于集合 的第n个小基站在第t个子帧期间的UL接入数据率,集合 为第t个子帧的类型为U子帧的小基站集合,为第n个小基站的索引, 为集合 中的第i个元t

素, 为将与N个小基站所对应的RA/BH段传输持续时间序列Ω 中元素按升序排列后的集t合,Ω 表示为 为编号为N的SBS在第t子帧时期的归一化后的接入或回程的传输持续时间, 表示为 为N个小基站中在第t个子帧期间最小的RA/BH段传输持续时间, 为N个小基站中在第t个子帧期间最大的RA/BH段传输持续时间, 为第u个用户设备与第n个小基站之间的UL接入链路能够达到的数据速率, W为毫米波频段的带宽, 为第u个用户设备与第n个小基站之间的UL接入链路的信号干扰噪声比,N0为毫米波频段的背景噪声功率密

度, 为第u个用户设备在第t个子帧期间分配给第n个小基站的发射功率, 为发射波束 对接收波束 的发射增益,发射波束 为从第u个用户设备到第n个小基站的发射波束,接收波束 为从第u个用户设备到第n个小基站的接收波束,为发射波束 的波束中心线与发射节

点i到接收节点k视距方向之间的夹角, 为发射波束 的波束宽度,z为旁瓣增益,为发射波束 的波束中心线与第u个用户设备到第n个小基站视距方向之间的夹角,为从第u个用户设备到第n个小基站的信道增益,B(x)为参数为x的伯努利随机变量,LoS

为LoS链路的概率, ρ 为平均LoS距离,du,n为第u个用户设备到第n个小基站的距离, 为LoS链路损耗, d0为自由空间参考距离,α为损失指数参数,Xσ为服从均值为0、标准差为σ的高斯随机变量, 为第u个用户设备到第n个小基站的LoS距离,PL(d0)为载波频率f的函数且c为光速, 为NLoS链路损耗, 为第u个用户设备NLoS

到第n个小基站的NLoS距离, 为NLoS链路的概率, ρ 为平均NLoS距离, 为接收波束 对发射波束 的接收增益,为接收波束 的波束带宽, 为接

收波束 的波束中心线与第u个用户设备到第n个小基站视距方向之间的夹角, 为第u个用户设备与第n个小基站之间UL接入链路所受到的来自UL接入链路的干扰, 为第u个用户设备与第n个小基站之间UL接入链路所受到的来自UL回程链路的干扰, 为第u个用户设备与第n个小基站之间UL接入链路所受到的来自DL回程链路的干扰, 为第u个用户设备与第n个小基站之间UL接入链路所受到的来自DL接入链路的干扰,\ \n 为第n 个小基站, 为在

\

期间处于U_RA时期的小基站集合,U_RA时期为小基站处于上行接入的时间段,u\为第u个用户设备,U\{u}表示用户设备集合U剔除掉第u个用户设备后的集合, 为第t\ \ \个子帧期间第u个用户设备与第n个小基站之间的关联变量, 为第u个用户设备在第\t个子帧期间分配给第n 个小基站的发射功率, 为发射波束 对接收波束\

的发射增益, 为从第u个用户设备到第n个小基站的信道增益, 为接收波束对发射波束 的接收增益, 为

在 期间处于U_BH时期的小基站集合,U_BH时期为小基站处于上行回程的时间段,\为在第t个子帧期间第n个小基站分配给宏基站m0的发射功率, 为发射波束对接收波束 的发射增益, 为接收波束 对发射波束 的接收增益, 为在 期间处于D_BH时

期的小基站集合,D_BH时期为小基站处于下行回程的时间段, 为在第t个子帧期间宏\基站分配给第n 个小基站的发射功率, 为发射波束 对接收波束 的发射增益, 为宏基站到第n个小基站的信道增益, 为接收波束 对发射波束的接收增益, 为在

期间处于D_RA时期的小基站集合,D_RA时期为小基站处于下行接入的时间段,\ \

为在第t个子帧期间第n个小基站分配给第u个用户设备的发射功率, 为发\

射波束 对接收波束 的发射增益, 为从第n 个小基站到第n个小基站的信道增益, 为接收波束 对发射波束 的接收增益, 为属于集合 的第n个小基站在第t个子帧期间的DL回程数据率,集合 为第t个子帧的类型为D子帧的小基站集合, 为宏基站与第n个小基站之间的DL回程链路的数据速率, 为宏基站与第n个小基站之间DL回程链路信号干扰噪声比, 为宏基站

在第t个子帧期间分配给第n个小基站的发射功率, 为发射波束 对接收波束的发射增益, 为从宏基站到第n个小基站的信道增益, 为接收波束 对发射波束 的接收增益, 为宏基站与第n个小基站的DL回程链路所遭受到的来自UL接入链路的干扰, 为宏基站与第n个小基站的DL回程链路所遭受到的来自UL回程链路的干扰, 为宏基站与第n个小基站的DL回程链路所遭受到的来自DL回程链路的干扰,为宏基站与第n个小基站的DL回程链路所遭受到的来自DL接入链路的干扰,为发射波束 对

接收波束 的发射增益, 为接收波束 对发射波束 的接收增益,为发射波束 对接收波

束 的发射增益, 为接收波束 对发射波束 的接收增益,为发射波束 对接

收波束 的发射增益, 为接收波束 对发射波束 的接收增益,为发射波束 对

接收波束 的发射增益, 为接收波束 对发射波束 的接收增益;

采用如下算式构建约束条件:

约束条件1:

约束条件2:

约束条件3:

约束条件4:

约束条件5:

约束条件6:

约束条件7:

式中 为第u个用户设备在调度时刻t结束并更新后的平均传输速率,为第u个用

户设备在调度时刻t‑1结束并更新后的平均传输速率, 为小基站n在第t子帧时期的归一‑化后的接入或回程的传输持续时间,M为小基站的集合,tf为在当前调度时刻之前需要参考{UL(t‑1)} {DL(t‑1)}的时隙数量,1 表示第n个小基站的第t‑1个子帧的类型为上行子帧,1 表示第n个小基站的第t‑1个子帧的类型为下行子帧, 为第t个子帧期间第u个用户设备的上行吞吐量, 为第t个子帧期间第u个用户设备的下行吞吐量,Tth为设定的吞吐量阈值,为在第t个子帧期间第n个小基站分配给第u个用户设备的发射功率, 为在第t个子帧期间第u个用户设备分配给第n个小基站的发射功率,Qsbs为毫米波天线的数量,为属于集合 的第n个小基站在第t个子帧期间的回程数据率,为第n个小基站与宏基站之间的UL回程链路能够达到的数据速率, 为第n个小基站与宏基站之间的UL回程链路的信号干扰噪声比,

为第n个小基站在第t个子帧期间分配给宏基站的发射功率, 为发射波束 对接收波束 的发射增益, 为从第n个小基站到宏基站的信道增益, 为接收波束 对发射波束 的接收增益, 为第n个小基站与宏基站之间的UL回程链路所遭受到的来自UL接入链路的干扰, 为第n个小基站与宏基站之间的UL回程链路所遭受到的来自UL回程链路的干扰, 为第n个小基站与宏基站之间的UL回程链路所遭受到的来自DL回程链路的干扰, 为第n个小基站与宏基站之间的UL回程链路所遭受到的来自DL接入链路的干扰,\

为发射波束 对接收波束 的发射增益, 为从第u个用户设备到宏基站的信道增益, 为接收波束 对发射波束 的接收增益,为发射波束 对接

\

收波束 的发射增益, 为从第n 个小基站到宏基站的信道增益, 为接收波束 对发射波束 的接收增益,

为宏基站自己对自己产生的

信道增益,ξ为自干扰消除因子, 为发射波束 对接收波束 的发射增益,为从宏基站到宏基站的信道增益, 为接收波束 对发射波束 的接收增益, 为发射

波束 对接收波束 的发射增益, 为接收波束 对发射波束 的接收增益, 为属于集合 的第n个小基站在第t个子帧期间的接入数据率,为第n个小基站与第u个用户设备之间的DL接入链路能够达到的数据速率, 为第n个小基站与第u个用户设备之间的DL接入链路的信号干扰噪声比,为第n个小基站在第t个子帧

期间分配给第u个用户设备的发射功率, 为发射波束 对接收波束 的发射增益,为从第n个小基站到第u个用户设备的信道增益, 为接收波束 对发射波束的接收增益, 为第n个小基站与第u个用户设备之间的DL接入链路所遭受到的来自UL接入链路的干扰, 为第n个小基站与第u个用户设备之间的UL回程链路所遭受到的来自UL接入链路的干扰, 为第n个小基站与第u个用户设备之间的DL回程链路所遭受到的来自UL接入链路的干扰, 为第n个小基站与第u个用户设备之间的DL接入链路所遭受到的来自UL接入链路的干扰,\

为发射波束 对接收波束 的发射增益, 为从第u个用户设备到第u个用户设备的信道增益, 为接收波束 对发射波束 的接收增益,为发射波束 对接收波束

的发射增益, 为接收波束 对发射波束 的接收增益,为发射波束 对接收波束

的发射增益, 为从宏基站到第u个用户设备的信道增益, 为接收波束对发射波束 的接收增益,

为发射波束 对

\

接收波束 的发射增益, 为从第n 个小基站到第u个用户设备的信道增益,为接收波束 对发射波束 的接收增益;

步骤S2,具体还包括如下步骤:

在 期间,当1≤i≤N:

若小基站的 在第t个子帧期间的子帧类型为U子帧,则采用如下方式进行更新:为在第t子

帧时刻,定义 表示与N个SBS所对应的RA/BH传输持续时间序列,按升序t

重新排列序列Ω 中的元素,并重新标记为 定义为 所对应的所有SBS的索引列表;

若小基站的 在第t个子帧期间的子帧类型为D子帧,则采用如下方式进行更新:采用 为每个用户设备定义PF优先级,PFu'(t)为每个用户设备u的PF优先级,Ru(t)为第u个用户设备在调度时刻t时能够达到的瞬时传输速率, 为第u个用户设备在调度时刻t之前设定时间段内的平均传输速率;

采用长期平均干扰来估算SINR值,从而得到瞬时传输速率;定义第u个用户设备在调度时刻t的SINR值为:式中 为第u个用户设备在调度时刻t之前的长期平均干扰,且计算式为其中 为 集合中的第i个索引元素, 为 集合中的第i+1个索引元素;

最后,得到如下算式对PFu'(t)进行修正,得到修正后的PF值PFu(t)为:在每次调度时刻t,每个小基站选取PFu(t)值最大的Qsbs个用户设备进行关联:针对上行子帧,选择PFu(t)值最大的Qsbs个上行发送用户设备,对于下行子帧,选择PFu(t)值最大的Qsbs个下行接收用户设备;

S3.基于CTDE架构和神经网络架构,构建求解模型;具体包括如下步骤:采用元组g=<N,S,A,Z,P,r,γ>描述多智能体强化学习的环境;N={1,2,...,N}表示所有智能体的集合,s∈S表示环境的全局状态信息,在时间t,每个智能体n∈N同时选择一个动作 A为动作函数的集合,所有智能体选择的行动构成联合行动在执行联合动作at后,下一个时间状态st+1产生于状态转移方程P(st+1|N

st,at):S×A×S→[0,1];最后,每一个智能体都会收到奖励 R为一个标量;P为转移方程的集合;r为奖励函数的取值集合;

每个智能体n∈N得到一个单独的局部观察 Z为局部观察集合,且不能得到整个全局状态st;所有智能体部分观察构成联合观测 智能体的部分观察和行动的历史由 表示,Γt为智能体的部分观察和行动的历史集合;

所有智能体历史集合由 表示,τt为所有智能体历史集合;每个智能体n∈N选择动作时都使用一个仅基于该智能体个人历史 的去中心化策略 智能体们的目的在于学习一个联合策略 最大化对应的期望折扣回报 其中γ∈[0,1)为折扣因子,E[]为期望函数的简写;

对步骤S2构建的模型进行建模时,关注若干个关键要素;所述的关键要素包括局部观察空间以及全局状态空间、动作空间和即时奖励:局部观察空间以及全局状态空间:

将小基站作为智能体,智能体之间没有信息交换;用Un表示位于第n个小基站范围内的用户设备集合;第n个小基站在第t子帧时刻的局部状态 表示为:式中 表示第n个小基站的第t个子帧的类型,若当前子帧为上行子帧则否则 为第n个小基站在第t‑1个子帧时期的RA/BH段持续传输时间,且当t=1时 为第n个小基站在第t‑1个子帧时期的总速率,且当t=1时为第n个小基站在第t个子帧时期所关联的用户设备的ID,且为第u个用户设备在第t个子帧时期的三维位置坐标信息; 为第u个用户设备在第t个子帧时期的PF值,且当t=1时 为第u个用户设备在第t‑1个子帧时期的速率,且当t=1或 时 为第t‑1个子帧时期的接入发射功率,当第t‑1个子帧为上行子帧时 表示第u个用户设备向第n个小基站的上行接入发射功率,当第t‑1个子帧为下行子帧时 表示第n个小基站向第u个用户设备的下行接入发射功率,且当t=1或 时 第i个子帧时期的全局状态空间st为所有智能体局部状态的集合,并表示为动作空间:

在第t个子帧时,第n个小基站根据用户关联状态得到自身所关联的用户集合n

然后根据当前策略π 及对应的局部观察 第n个小基站从自身的动作空间中选择一个动作;第n个小基站在第t个子帧时刻的动作 表示为第n个小基站根据自身的第t个子帧的类型决定功率的发射方向与RA/BH段的持续传输时间:当第n个小基站的第t个子帧为上行帧时,给第n个小基站所关联的上行传输用户设备分配向小基站传输的上行接入发射功率,此时 同时给第n个小基站分配RA段的持续传输时间;当第n个小基站的第t个子帧为下行帧时,给第n个小基站分配向其所关联的下行用户设备发送数据的下行接入发射功率,此时 同时给第n个小基站分配BH段的持续传输时间;

即时奖励:

当所有小基站采取联合动作 时,所有小基站都会获取一个奖励;

将第n个小基站的即时奖励描述为:

式中δ1和δ2为设置的权重系数;

n

每个小基站采用独立的策略更新裁剪来学习自身的策略π;每个小基站基于局部观察学习critic网络式中γ为折扣因子,λ为用于权衡精度与方差的超参数,为t时刻的时间差分误差;每个小基站的策略损失为 clip

()为裁剪函数,若 取值位于1‑ε与1+ε之间,则函数clip()取值为若 取值小于1‑ε,则函数clip()取值为1‑ε;若取值大于1+ε,则函数clip()取值为1+ε;πθ()为新的策略函数, 为旧的策略函数;ε为梯度裁剪比例;

采用裁剪值限制每个小基站的critic网络的更新小于设定值ε:n

式中L (φ)为小基站n的actor网络的损失函数;φold为更新前的参数, 为折扣奖励且 以上更新方程将网络的更新限制在设定范围内,从而避免对最近一批数据的过拟合;对于每个小基站,整体学习损失为n n

其中H(π )为策略π 的熵,λcritic和λentropy为设定的权重值;

将宏基站作为作为信息收集和集中训练的场所;集中式critic网络采用全局信息st作n出评估,分布式actor网络 仅采用局部状态信息 作出决策;θ 为第n个小基站的acter网络参数;每个小基站的策略损失函数表示为:n

第n个小基站的actor网络参数θ,通过策略梯度更新:式中 为采样期望函数;集中式critic网络表示为 并描述为状态价值函数,其n

中φ 为第n个小基站的critic网络参数;

n

通过最小化以下损失函数来更新φ :

其中 为折扣奖励且 为小基站n的critic网络;

门控制循环单元:

门控制循环单元包括更新门和复位门;在时刻t,更新状态信息为先前状态信息信息ht‑1和当前候选状态信息 的线性插值,表示为 其中zt为更新门,⊙为Hadamard乘积符号;zt的值越大,则保留先前状态的信息越多;zt的更新公式为zt=σ(Wzxt+Uzht‑1+bz),其中xt为时刻t的输入向量,σ()为Sigmoid函数,Wz、Uz和bz为神经网络的参数; 的更新公式为式中Wh、Uh和bh为神经网络参数,rt为复位门,且更新公式为rt=σ(Wrxt+Urht‑1+br),Wr、Ur和br为神经网络的参数;

多头注意力机制:

在critic网络的多层感知器前插入多头注意力单元;critic网络函数 的表达式为 其中fn()为两层MLP, 为嵌入函数且由一层MLP组 成,xn 为除第n个小 基站外的其他小 基站的贡献值 ,且计算公式 为‑ ‑

n为n除第n个小基站外其他所有小基站的集合,为第 个小基站的注意力权重, 为第 个小基站的编码值;为除第n个小基站外的任意小基站;

的计算过程为:通过嵌入函数 对第 个小基站的局部观察 编码,然后通过左乘矩阵Wv进行线性变换,最后将线性变换结果带入非线性激活函数h()得到编码值;注意力权重 通过比较嵌入特征en和 的相似度得到;通过双线性映射机制,用Wq将en映射为query,用Wk将 映射为key,然后将相似度结果传递到softmax层进行归一化;

无效动作屏蔽:

采用无效工作屏蔽机制,进行无效动作的屏蔽;无效动作屏蔽机制表示为:式中 为logits函数,(ln)j表示策略网络 输出的是第n个小基站的第j个动作的logits,mask()为依赖状态的可微函数;M为设定的一个小于设定值值的负数;

S4.对基于求解模型的自回程毫米波蜂窝网络通信模型进行训练和求解;具体包括如下步骤:训练过程:

输入:折扣因子γ,训练时长ε,小批量大小|B|,GAE权重λ,学习率α,最大步长;

n

输出:每个小基站的actor网络模型参数θ;

n n n

步骤1:初始化actor网络参数θ,critic网络参数φ ,经验缓存D;

步骤2:初始化当前训练时长e为0;

步骤3:初始化当前调度时期t=0,初始状态s0,以及范围内所用户设备的步骤4:计算集合Un内所有用户设备的PFu(t);

步骤5:根据PFu(t)的大小,从大到小选取前Qsbs个上行或下行用户设备进行用户关联;

步骤6:从环境中获得局部观测

步骤7:根据actor网络以及局部观测产生动作n

步骤8:获取其它智能体的局部观测并组成全局状态st并输入到critic网络得到Vt :n

Vt为其它智能体的局部观测并组成全局状态st并输入到critic网络得到的值;

n

步骤9:所有小基站执行动作后,获得奖励rt,系统转至下一状态st+1;

步骤10:计算得到下一调度时刻的集合Un内所有用户设备的 以及步骤11:如果t=T,则跳转至步骤12,否则令t增加1,并跳转至步骤4;

步骤12:获取智能体的轨迹 以及critic网络的输出值步骤13:计算优势函数 并存储样本数据 到经验缓存n

D中; 为小基站n在第t子帧的优势函数;

n

步骤14:从经验缓存D中随机选取小批量|B|个数据 B为小批量数据的大小;

n

步骤15:计算得到 计算得到 J(φ )为小基站n的价值损失函数;

步骤16:计算梯度 并利用Adam优化器更新actor网络;

步骤17:计算梯度 利用Adam优化器更新critic网络;

n

步骤18:如果e=ε,则训练完成并输出θ,否则令e增加1,跳转至步骤3;

决策过程:

输入:第n个小基站的局部观测

输出:第n个小基站的动作

根据actor网络以及局部观测直接输出动作S5.目标网络根据步骤S4得到的求解结果进行通信;

S6.实时重复步骤S1~S5,完成基于动态时分双工通信的自回程毫米波蜂窝网络通信。