买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于动态时分双工通信的自回程毫米波蜂窝网络通信方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于动态时分双工通信的自回程毫米波蜂窝网络通信方法

￥21000

专利号： 2023104623509

申请人：中南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于动态时分双工通信的自回程毫米波蜂窝网络通信方法，包括如下步骤：S1.获取目标网络的网络参数数据信息；具体包括如下步骤：目标网络为一个带无线自回程的毫米波异构蜂窝网络；所述网络包括一个宏蜂窝和N个小蜂窝；宏基站MBS作为宏蜂窝内所有小基站SBS的带内无线回程连接至核心网的枢纽；

‑

宏基站MBS用符号m0表示，宏基站范围内的所有小基站SBS用集合M ＝{1,2,...,N}表示；集‑合M＝M ∪{m0}表示所有基站，且集合元素个数为N+1；宏基站MBS范围内的所有用户设备UE表示为用户设备UE仅选择小基站SBS作为关联基站，并将数据通过小基站SBS中继到宏基站MBS从而进入核心网，或者接收小基站SBS从宏基站MBS转发的数据；

设定宏基站MBS、小基站SBS和用户设备UE均同时配备了毫米波频段和sub‑6GHz频段的无线接口，其中毫米波频段用于数据传输，sub‑6GHz频段用于控制信息交换；

设定每个小基站SBS均配备了Qsbs个毫米波天线，Qsbs为毫米波天线的数量，以便具有与最多Qsbs个用户设备UE同时连接的能力；每个用户设备UE仅配备一根毫米波天线来连接最多一个小基站SBS；宏基站MBS配备了足够多的毫米波天线以保证自身能够同时向所有小基站SBS发送数据，或者同时从所有小基站SBS接收数据；

设定每个小基站SBS的上下行数据到达过程遵守泊松分布；每个小基站SBS需要为自身的每一个关联的用户设备维护一个DL缓冲区，来满足用户设备的下行流量缓存需求；同时，每一个用户设备均设置一个UL缓冲区，来满足自身的上行流量的缓存需求；设定任何时刻，针对每个小基站都至少有Qsbs个用户设备的DL缓冲区和UL缓冲区非空，以保证上下行通信信道处于非空闲状态；采用分时长期演进方案，通过配置DL子帧和UL子帧的比例来适应不对称的上下行流量需求；一个通信帧包括7种无线帧配置，每帧长度为10ms，由10个连续的帧长的1ms的子帧组成；每个子帧有三种类型，U子帧、D子帧和S子帧，其中U子帧表示UL流量，D子帧表示DL流量，S子帧表示从D子帧到U子帧的转换子帧；将S子帧视为D子帧；

根据无线频谱的使用模式，采用带内传输模式进行传输，接入链路和回程链路共享相同的频谱资源；

采用扇形天线模型进行夹角的计算；仅对接入链路的发射功率进行调节，并认定回程链路的发射功率为固定值；

S2.根据步骤S1获取的数据信息，以网络总速率为优化目标，以网络吞吐量、传输时间、网络传输功率、网络节点连接数和网络速度为约束条件，构建自回程毫米波蜂窝网络通信模型；具体包括如下步骤：采用如下算式构建优化目标：

式中X为第t个子帧期间的用户设备关联情况，且表示第t个子帧期间第u个用户设备与第n个小基站互相关联，表示第t个子帧期间第u个用户设备与第n个小基站无关联；Γ为任意小基站在第t个子帧归一化后的RA/BH段传输持续时间的取值集合，RA/BH段为小UE基站处于接入或者回程的时间段，且 Z为每个子帧的时隙数；P 为第i个用户设备在第t个子帧期间分配给接收节点j的发射功率的取值集合，且L为设定的正整数，为用户设备的最大功率；

P 为第i个小基站在第t个子帧期间分配给接收节点j的发射功率的取值集合，且K为设定的正整数，为小基站的最大功率；

Tt为目标网络在第i个子帧期间的总速率，且表示第n个小基站的第t个子帧类型为上行子帧，表示第n个小基站的第t个子帧类型为下行子帧，为属于集合的第n个小基站在第t个子帧期间的UL接入数据率，集合为第t个子帧的类型为U子帧的小基站集合，为第n个小基站的索引，为集合中的第i个元t

素，为将与N个小基站所对应的RA/BH段传输持续时间序列Ω 中元素按升序排列后的集t合，Ω 表示为为编号为N的SBS在第t子帧时期的归一化后的接入或回程的传输持续时间，表示为为N个小基站中在第t个子帧期间最小的RA/BH段传输持续时间，为N个小基站中在第t个子帧期间最大的RA/BH段传输持续时间，为第u个用户设备与第n个小基站之间的UL接入链路能够达到的数据速率， W为毫米波频段的带宽，为第u个用户设备与第n个小基站之间的UL接入链路的信号干扰噪声比，N0为毫米波频段的背景噪声功率密

度，为第u个用户设备在第t个子帧期间分配给第n个小基站的发射功率，为发射波束对接收波束的发射增益，发射波束为从第u个用户设备到第n个小基站的发射波束，接收波束为从第u个用户设备到第n个小基站的接收波束，为发射波束的波束中心线与发射节

点i到接收节点k视距方向之间的夹角，为发射波束的波束宽度，z为旁瓣增益，为发射波束的波束中心线与第u个用户设备到第n个小基站视距方向之间的夹角，为从第u个用户设备到第n个小基站的信道增益，B(x)为参数为x的伯努利随机变量，LoS

为LoS链路的概率， ρ 为平均LoS距离，du,n为第u个用户设备到第n个小基站的距离，为LoS链路损耗， d0为自由空间参考距离，α为损失指数参数，Xσ为服从均值为0、标准差为σ的高斯随机变量，为第u个用户设备到第n个小基站的LoS距离，PL(d0)为载波频率f的函数且c为光速，为NLoS链路损耗，为第u个用户设备NLoS

到第n个小基站的NLoS距离，为NLoS链路的概率， ρ 为平均NLoS距离，为接收波束对发射波束的接收增益，为接收波束的波束带宽，为接

收波束的波束中心线与第u个用户设备到第n个小基站视距方向之间的夹角，为第u个用户设备与第n个小基站之间UL接入链路所受到的来自UL接入链路的干扰，为第u个用户设备与第n个小基站之间UL接入链路所受到的来自UL回程链路的干扰，为第u个用户设备与第n个小基站之间UL接入链路所受到的来自DL回程链路的干扰，为第u个用户设备与第n个小基站之间UL接入链路所受到的来自DL接入链路的干扰，\ \n 为第n 个小基站，为在

期间处于U_RA时期的小基站集合，U_RA时期为小基站处于上行接入的时间段，u\为第u个用户设备，U\{u}表示用户设备集合U剔除掉第u个用户设备后的集合，为第t\ \ \个子帧期间第u个用户设备与第n个小基站之间的关联变量，为第u个用户设备在第\t个子帧期间分配给第n 个小基站的发射功率，为发射波束对接收波束\

的发射增益，为从第u个用户设备到第n个小基站的信道增益，为接收波束对发射波束的接收增益，为

在期间处于U_BH时期的小基站集合，U_BH时期为小基站处于上行回程的时间段，\为在第t个子帧期间第n个小基站分配给宏基站m0的发射功率，为发射波束对接收波束的发射增益，为接收波束对发射波束的接收增益，为在期间处于D_BH时

期的小基站集合，D_BH时期为小基站处于下行回程的时间段，为在第t个子帧期间宏\基站分配给第n 个小基站的发射功率，为发射波束对接收波束的发射增益，为宏基站到第n个小基站的信道增益，为接收波束对发射波束的接收增益，为在

期间处于D_RA时期的小基站集合，D_RA时期为小基站处于下行接入的时间段，\ \

为在第t个子帧期间第n个小基站分配给第u个用户设备的发射功率，为发\

射波束对接收波束的发射增益，为从第n 个小基站到第n个小基站的信道增益，为接收波束对发射波束的接收增益，为属于集合的第n个小基站在第t个子帧期间的DL回程数据率，集合为第t个子帧的类型为D子帧的小基站集合，为宏基站与第n个小基站之间的DL回程链路的数据速率，为宏基站与第n个小基站之间DL回程链路信号干扰噪声比，为宏基站

在第t个子帧期间分配给第n个小基站的发射功率，为发射波束对接收波束的发射增益，为从宏基站到第n个小基站的信道增益，为接收波束对发射波束的接收增益，为宏基站与第n个小基站的DL回程链路所遭受到的来自UL接入链路的干扰，为宏基站与第n个小基站的DL回程链路所遭受到的来自UL回程链路的干扰，为宏基站与第n个小基站的DL回程链路所遭受到的来自DL回程链路的干扰，为宏基站与第n个小基站的DL回程链路所遭受到的来自DL接入链路的干扰，为发射波束对

接收波束的发射增益，为接收波束对发射波束的接收增益，为发射波束对接收波

束的发射增益，为接收波束对发射波束的接收增益，为发射波束对接

收波束的发射增益，为接收波束对发射波束的接收增益，为发射波束对

接收波束的发射增益，为接收波束对发射波束的接收增益；

采用如下算式构建约束条件：

约束条件1：

约束条件2：

约束条件3：

约束条件4：

约束条件5：

约束条件6：

约束条件7：

式中为第u个用户设备在调度时刻t结束并更新后的平均传输速率，为第u个用

户设备在调度时刻t‑1结束并更新后的平均传输速率，为小基站n在第t子帧时期的归一‑化后的接入或回程的传输持续时间，M为小基站的集合，tf为在当前调度时刻之前需要参考{UL(t‑1)} {DL(t‑1)}的时隙数量，1 表示第n个小基站的第t‑1个子帧的类型为上行子帧，1 表示第n个小基站的第t‑1个子帧的类型为下行子帧，为第t个子帧期间第u个用户设备的上行吞吐量，为第t个子帧期间第u个用户设备的下行吞吐量，Tth为设定的吞吐量阈值，为在第t个子帧期间第n个小基站分配给第u个用户设备的发射功率，为在第t个子帧期间第u个用户设备分配给第n个小基站的发射功率，Qsbs为毫米波天线的数量，为属于集合的第n个小基站在第t个子帧期间的回程数据率，为第n个小基站与宏基站之间的UL回程链路能够达到的数据速率，为第n个小基站与宏基站之间的UL回程链路的信号干扰噪声比，

为第n个小基站在第t个子帧期间分配给宏基站的发射功率，为发射波束对接收波束的发射增益，为从第n个小基站到宏基站的信道增益，为接收波束对发射波束的接收增益，为第n个小基站与宏基站之间的UL回程链路所遭受到的来自UL接入链路的干扰，为第n个小基站与宏基站之间的UL回程链路所遭受到的来自UL回程链路的干扰，为第n个小基站与宏基站之间的UL回程链路所遭受到的来自DL回程链路的干扰，为第n个小基站与宏基站之间的UL回程链路所遭受到的来自DL接入链路的干扰，\

为发射波束对接收波束的发射增益，为从第u个用户设备到宏基站的信道增益，为接收波束对发射波束的接收增益，为发射波束对接

收波束的发射增益，为从第n 个小基站到宏基站的信道增益，为接收波束对发射波束的接收增益，

为宏基站自己对自己产生的

信道增益，ξ为自干扰消除因子，为发射波束对接收波束的发射增益，为从宏基站到宏基站的信道增益，为接收波束对发射波束的接收增益，为发射

波束对接收波束的发射增益，为接收波束对发射波束的接收增益，为属于集合的第n个小基站在第t个子帧期间的接入数据率，为第n个小基站与第u个用户设备之间的DL接入链路能够达到的数据速率，为第n个小基站与第u个用户设备之间的DL接入链路的信号干扰噪声比，为第n个小基站在第t个子帧

期间分配给第u个用户设备的发射功率，为发射波束对接收波束的发射增益，为从第n个小基站到第u个用户设备的信道增益，为接收波束对发射波束的接收增益，为第n个小基站与第u个用户设备之间的DL接入链路所遭受到的来自UL接入链路的干扰，为第n个小基站与第u个用户设备之间的UL回程链路所遭受到的来自UL接入链路的干扰，为第n个小基站与第u个用户设备之间的DL回程链路所遭受到的来自UL接入链路的干扰，为第n个小基站与第u个用户设备之间的DL接入链路所遭受到的来自UL接入链路的干扰，\

为发射波束对接收波束的发射增益，为从第u个用户设备到第u个用户设备的信道增益，为接收波束对发射波束的接收增益，为发射波束对接收波束

的发射增益，为接收波束对发射波束的接收增益，为发射波束对接收波束

的发射增益，为从宏基站到第u个用户设备的信道增益，为接收波束对发射波束的接收增益，

为发射波束对

接收波束的发射增益，为从第n 个小基站到第u个用户设备的信道增益，为接收波束对发射波束的接收增益；

步骤S2，具体还包括如下步骤：

在期间，当1≤i≤N：

若小基站的在第t个子帧期间的子帧类型为U子帧，则采用如下方式进行更新：为在第t子

帧时刻，定义表示与N个SBS所对应的RA/BH传输持续时间序列，按升序t

重新排列序列Ω 中的元素，并重新标记为定义为所对应的所有SBS的索引列表；

若小基站的在第t个子帧期间的子帧类型为D子帧，则采用如下方式进行更新：采用为每个用户设备定义PF优先级，PFu'(t)为每个用户设备u的PF优先级，Ru(t)为第u个用户设备在调度时刻t时能够达到的瞬时传输速率，为第u个用户设备在调度时刻t之前设定时间段内的平均传输速率；

采用长期平均干扰来估算SINR值，从而得到瞬时传输速率；定义第u个用户设备在调度时刻t的SINR值为：式中为第u个用户设备在调度时刻t之前的长期平均干扰，且计算式为其中为集合中的第i个索引元素，为集合中的第i+1个索引元素；

最后，得到如下算式对PFu'(t)进行修正，得到修正后的PF值PFu(t)为：在每次调度时刻t，每个小基站选取PFu(t)值最大的Qsbs个用户设备进行关联：针对上行子帧，选择PFu(t)值最大的Qsbs个上行发送用户设备，对于下行子帧，选择PFu(t)值最大的Qsbs个下行接收用户设备；

S3.基于CTDE架构和神经网络架构，构建求解模型；具体包括如下步骤：采用元组g＝＜N,S,A,Z,P,r,γ＞描述多智能体强化学习的环境；N＝{1,2,...,N}表示所有智能体的集合，s∈S表示环境的全局状态信息，在时间t，每个智能体n∈N同时选择一个动作 A为动作函数的集合，所有智能体选择的行动构成联合行动在执行联合动作at后，下一个时间状态st+1产生于状态转移方程P(st+1|N

st,at):S×A×S→[0,1]；最后，每一个智能体都会收到奖励 R为一个标量；P为转移方程的集合；r为奖励函数的取值集合；

每个智能体n∈N得到一个单独的局部观察 Z为局部观察集合，且不能得到整个全局状态st；所有智能体部分观察构成联合观测智能体的部分观察和行动的历史由表示，Γt为智能体的部分观察和行动的历史集合；

所有智能体历史集合由表示，τt为所有智能体历史集合；每个智能体n∈N选择动作时都使用一个仅基于该智能体个人历史的去中心化策略智能体们的目的在于学习一个联合策略最大化对应的期望折扣回报其中γ∈[0,1)为折扣因子，E[]为期望函数的简写；

对步骤S2构建的模型进行建模时，关注若干个关键要素；所述的关键要素包括局部观察空间以及全局状态空间、动作空间和即时奖励：局部观察空间以及全局状态空间：

将小基站作为智能体，智能体之间没有信息交换；用Un表示位于第n个小基站范围内的用户设备集合；第n个小基站在第t子帧时刻的局部状态表示为：式中表示第n个小基站的第t个子帧的类型，若当前子帧为上行子帧则否则为第n个小基站在第t‑1个子帧时期的RA/BH段持续传输时间，且当t＝1时为第n个小基站在第t‑1个子帧时期的总速率，且当t＝1时为第n个小基站在第t个子帧时期所关联的用户设备的ID，且为第u个用户设备在第t个子帧时期的三维位置坐标信息；为第u个用户设备在第t个子帧时期的PF值，且当t＝1时为第u个用户设备在第t‑1个子帧时期的速率，且当t＝1或时为第t‑1个子帧时期的接入发射功率，当第t‑1个子帧为上行子帧时表示第u个用户设备向第n个小基站的上行接入发射功率，当第t‑1个子帧为下行子帧时表示第n个小基站向第u个用户设备的下行接入发射功率，且当t＝1或时第i个子帧时期的全局状态空间st为所有智能体局部状态的集合，并表示为动作空间：

在第t个子帧时，第n个小基站根据用户关联状态得到自身所关联的用户集合n

然后根据当前策略π 及对应的局部观察第n个小基站从自身的动作空间中选择一个动作；第n个小基站在第t个子帧时刻的动作表示为第n个小基站根据自身的第t个子帧的类型决定功率的发射方向与RA/BH段的持续传输时间：当第n个小基站的第t个子帧为上行帧时，给第n个小基站所关联的上行传输用户设备分配向小基站传输的上行接入发射功率，此时同时给第n个小基站分配RA段的持续传输时间；当第n个小基站的第t个子帧为下行帧时，给第n个小基站分配向其所关联的下行用户设备发送数据的下行接入发射功率，此时同时给第n个小基站分配BH段的持续传输时间；

即时奖励：

当所有小基站采取联合动作时，所有小基站都会获取一个奖励；

将第n个小基站的即时奖励描述为：

式中δ1和δ2为设置的权重系数；

每个小基站采用独立的策略更新裁剪来学习自身的策略π；每个小基站基于局部观察学习critic网络式中γ为折扣因子，λ为用于权衡精度与方差的超参数，为t时刻的时间差分误差；每个小基站的策略损失为 clip

()为裁剪函数，若取值位于1‑ε与1+ε之间，则函数clip()取值为若取值小于1‑ε，则函数clip()取值为1‑ε；若取值大于1+ε，则函数clip()取值为1+ε；πθ()为新的策略函数，为旧的策略函数；ε为梯度裁剪比例；

采用裁剪值限制每个小基站的critic网络的更新小于设定值ε：n

式中L (φ)为小基站n的actor网络的损失函数；φold为更新前的参数，为折扣奖励且以上更新方程将网络的更新限制在设定范围内，从而避免对最近一批数据的过拟合；对于每个小基站，整体学习损失为n n

其中H(π )为策略π 的熵，λcritic和λentropy为设定的权重值；

将宏基站作为作为信息收集和集中训练的场所；集中式critic网络采用全局信息st作n出评估，分布式actor网络仅采用局部状态信息作出决策；θ 为第n个小基站的acter网络参数；每个小基站的策略损失函数表示为：n

第n个小基站的actor网络参数θ，通过策略梯度更新：式中为采样期望函数；集中式critic网络表示为并描述为状态价值函数，其n

中φ 为第n个小基站的critic网络参数；

通过最小化以下损失函数来更新φ ：

其中为折扣奖励且为小基站n的critic网络；

门控制循环单元：

门控制循环单元包括更新门和复位门；在时刻t，更新状态信息为先前状态信息信息ht‑1和当前候选状态信息的线性插值，表示为其中zt为更新门，⊙为Hadamard乘积符号；zt的值越大，则保留先前状态的信息越多；zt的更新公式为zt＝σ(Wzxt+Uzht‑1+bz)，其中xt为时刻t的输入向量，σ()为Sigmoid函数，Wz、Uz和bz为神经网络的参数；的更新公式为式中Wh、Uh和bh为神经网络参数，rt为复位门，且更新公式为rt＝σ(Wrxt+Urht‑1+br)，Wr、Ur和br为神经网络的参数；

多头注意力机制：

在critic网络的多层感知器前插入多头注意力单元；critic网络函数的表达式为其中fn()为两层MLP，为嵌入函数且由一层MLP组成，xn 为除第n个小基站外的其他小基站的贡献值，且计算公式为‑ ‑

n为n除第n个小基站外其他所有小基站的集合，为第个小基站的注意力权重，为第个小基站的编码值；为除第n个小基站外的任意小基站；

的计算过程为：通过嵌入函数对第个小基站的局部观察编码，然后通过左乘矩阵Wv进行线性变换，最后将线性变换结果带入非线性激活函数h()得到编码值；注意力权重通过比较嵌入特征en和的相似度得到；通过双线性映射机制，用Wq将en映射为query，用Wk将映射为key，然后将相似度结果传递到softmax层进行归一化；

无效动作屏蔽：

采用无效工作屏蔽机制，进行无效动作的屏蔽；无效动作屏蔽机制表示为：式中为logits函数，(ln)j表示策略网络输出的是第n个小基站的第j个动作的logits，mask()为依赖状态的可微函数；M为设定的一个小于设定值值的负数；

S4.对基于求解模型的自回程毫米波蜂窝网络通信模型进行训练和求解；具体包括如下步骤：训练过程：

输入：折扣因子γ，训练时长ε，小批量大小|B|，GAE权重λ，学习率α，最大步长；

输出：每个小基站的actor网络模型参数θ；

n n n

步骤1：初始化actor网络参数θ，critic网络参数φ ，经验缓存D；

步骤2：初始化当前训练时长e为0；

步骤3：初始化当前调度时期t＝0，初始状态s0，以及范围内所用户设备的步骤4：计算集合Un内所有用户设备的PFu(t)；

步骤5:根据PFu(t)的大小，从大到小选取前Qsbs个上行或下行用户设备进行用户关联；

步骤6：从环境中获得局部观测

步骤7：根据actor网络以及局部观测产生动作n