买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种物理层参数的智能决策方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种物理层参数的智能决策方法

￥18000

专利号： 2022113184703

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

更新日期：2024-12-18

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种物理层参数的智能决策方法，其特征在于：包括以下步骤：

S1：输入RLC层、MAC层、PHY层的参数作为跨层信息，利用MAC中的智能调度器在满足上层的约束下根据不同的信道条件来动态决策并输出物理层的调制阶数；

S2：MID模型将优化问题建模为马尔可夫决策过程，利用DRL算法设计智能体，定义状态空间、动作空间、奖励函数；

S3：利用设计好的智能体，利用深度Q网络DQN来验证复杂网络环境下灵活配置物理层参数的智能决策方案；

步骤S1中，将RLC的Buffer状态、MAC的HOL延迟和PHY的信道质量作为跨层输入信息；跨层信息通过逻辑信道和传输信道来进行传递，将其作为动态变化的网络环境，与MAC的智能体进行实时交互；

步骤S1中所述上层的约束包括RLC层的Buffer状态有无数据以及MAC层HOL延迟时间是否超过延迟阈值的情况；只有在缓冲区有数据的时候，MAC层的智能调度器才进行资源调度，无数据的时候为无效情况；将用户每个请求设置相同的HOL延迟阈值，将超出HOL延迟阈值的数据包从Buffer中丢弃；所述不同的信道条件以信噪比来表示，将信道质量分为低、中、高三种情况；

步骤S1的优化目标为在Buffer状态信息、HOL延迟的约束下，通过定义最大化传输的符号个数为当前信道环境配置合适的物理层调制阶数，延迟约束仅在有数据的情况下起作用，定义函数来规范所述延迟约束，函数的变量为dt‑dth，当第j个请求的数据包在Buffer中待调度的剩余时间在小于HOL延迟阈值时候，就视为满足延迟约束，否则就不满足，系统最大化符号个数的数学模型表示为：其中Rm,j(t)表示系统传输的符号个数，f(dt‑dth)表示延迟约束函数，dt‑dth表示t时刻数据包的延迟时间与延迟阈值的差值；s.t表示约束条件，dt表示t时刻的数据包在缓冲区的延迟时间，T＝{0,1,...,T‑1}集合表示当前UE的所有决策时刻的集合，表示系统的总信道容量，表示系统最低的信道容量，C1为最小延迟限制，即保证在满足延迟约束下调度资源，C2表示网络的最低服务要求，即保证当前UE的总信道容量不能低于吞吐量阈值；

步骤S2中，MID模型通过设计马尔可夫决策过程MDP模型，使得MAC层的智能体能够在不同状态下决策出适合当前网络环境下的物理层调制阶数，所述MDP模型设计如下：首先将状态抽象地表征为环境，即智能体进行决策调制阶数的依据，MDP在t时刻的状态定义为：S(t)＝{B(t),D(t),H(t)}

智能体在观察环境后，通过获得相应的状态S(t)，确定在该状态下执行的动作A(t)，决策的结果是在满足约束条件C1的一组调制阶数向量，将动作空间定义为A(t)＝(m(t))

其中m(t)＝{m1(t),m2(t),...,mj(t)|mj(t)∈[4,16,64]}，mj(t)代表该UE的第j个请求时智能体决策的调制阶数情况；

奖励是MDP中智能体采取动作后的即时反馈，将延迟约束函数作为一个时延乘法因子来奖励满足约束的情况，如果满足延迟约束，则获得一个正符号的奖励，如果不满足，则获得一个负符号的惩罚，通过定义一个调节因子δ来放大最优动作时候的奖励，当δ小于1时，奖励被放大β倍，通过放大β倍的奖励使智能体更关注最优的动作，定义β如下：根据定义的延迟约束和跨层参数的状态信息定义奖励函数R(t)，当Buffer中没有待调度的数据时，奖励为0；当Buffer中有待调度的数据时，系统的目标是累积最大化正奖励；对于低信噪比，最优的动作为低阶调制，调节因子在智能体选择该低阶调制时设为小于1；同理，中、高信噪比状态下的调制动作视中阶、高阶调制分别为合适的动作，奖励函数R(t)为：其中B表示系统的带宽；

所述步骤S3中，所述DQN使用非线性神经网络来近似状态‑动作值函数，从高维数据中提取特征，完成从状态到状态‑动作值的映射，经验回放池负责存储交互得到的4元组样本，与目标网络和自适应估计优化器共同作用以训练Q网络，DQN的Q值函数更新公式如下：*

Q(s,a)是最优的Q值函数，由递归获得，(s(t),a(t),r(t),s(t+1),a(t+1))表示在当前时刻t下，系统处于状态s(t)，在执行动作a(t)之后获得的即时奖励，并在下一个时刻进入状态s(t+1)以一定概率执行动作a(t+1)；Q值函数更新规则如下所示：其中，α表示学习率，γ∈[0,1]是折扣因子，折扣因子反映网络对得到即时奖励的期望程度，利用经验回放池存储获取到的4元组样本，并随机抽取小批量样本数据进行训练；

DQN网络在训练过程中通过使损失函数最小并逐渐逼近最优Q函数来训练更新参数，损失函数是通过基于当前的Q值和目标Q值的差值进行定义的，通过评估这个差值来确定下一步训练的正确方向，损失函数计算公式如下：其中r(t)为当前时刻的奖励；w‑和w分别为目标网络的参数和估值网络的参数；

通过梯度下降方法Q网络进行反向训练更新：

训练DQN模型，训练完成后得到DQN网络的最优权重参数w，通过最大化系统中的符号个数实现最优决策调制策略。