买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的蜂窝网用户关联与资源分配方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的蜂窝网用户关联与资源分配方法

￥22200

专利号： 2024112899430

申请人：山东科技大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-27

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，包括如下步骤：步骤1、在动态异构蜂窝网络中，构建一个包含宏基站、微微基站和毫微微基站、中央控制器及多个移动用户设备的上行网络系统；

步骤2、构建动态异构蜂窝网络下的用户关联和资源分配模型，将用户关联和资源分配模型描述为带约束条件的混合整数非线性规划优化问题；

步骤3、构建基于深度强化学习的独立奖励混合动作空间多智能体近端策略优化算法；

步骤4、采用集中式训练与分布式执行的架构，基于算法优化调度用户关联和资源分配决策。

2.根据权利要求1所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，所述步骤1中，上行网络系统由个宏基站、个微微基站、个毫微微基站以及一组随机分布的移动用户设备组成，为第个移动用户设备，为移动用户设备总数；微微基站和毫微微基站以及移动用户设备都位于宏基站覆盖范围内，令系统中的所有基站为，其中，为基站序号，为所有基站总数，，每个移动用户设备都配备了一个

天线，所有在基站覆盖范围内的移动用户设备共享上行子信道；系统中的所有子信道集合为，为子信道序号，为子信道总数；

上行网络系统中每个移动用户设备在基站的覆盖区域内随机移动，且移动用户设备的位置在每个时隙更新；时隙第个移动用户设备的移动速度记为，为移动速度的最小值，为移动速度的最大值，时隙第个移动用户设备的方向为；每个移动用户设备根据环境条件选择匹配的基站进行通信，第个移动用户设备在时隙与第个基站的关联用表示，，其中，当时表示第个移动用户设备选择了基站，否则；为个移动用户设备在时隙与第个基站的关联；

对于子信道分配，第个移动用户设备在时隙选择的第个子信道用表示，，其中，如果，则子信道被第个移动用户设备占用，否则；为第个移动用户设备在时隙选择的第个子信道。

3.根据权利要求2所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，上行网络系统中，移动用户设备在每个时隙向基站发送信号，发射功率大小的上限为，下限为，发射功率根据子信道的环境状态进行实时调整，环境状态包括状态信息和用户需求；在时隙第个移动用户设备在第个子信道上的发射功率记为；

在时隙时，占用第个子信道的第个移动用户设备向第个基站发射信号的信噪比为：；

其中，为时隙占用第个子信道的第个移动用户设备向第个基站发射信号的信噪比；是时隙第个子信道从第个移动用户设备到第个基站的信道增益；为不同于的第个移动用户设备；为第个移动用户设备在时隙与第个基站的关联；为第个移动用户设备在时隙选择的第个子信道；为在时隙第个移动用户设备在第个子信道上的发射功率；为时隙第个子信道从第个移动用户设备到第个基站的信道增益；表示加性高斯白噪声；

信道增益由小尺度衰落、路径损耗和阴影决定，在时隙时，第个子信道上第个基站之间与第个移动用户设备的最大上行传输速率表示为：；

其中，为系统中每个子信道的带宽；

由于假设每个移动用户设备在同一时隙只能连接一个基站并占用一个子信道，则第个移动用户设备在时隙的速率为：；

时隙包含个移动用户设备的总传输速率为：

；

时隙频谱效率为：

；

时隙能量效率为：

。

4.根据权利要求3所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，所述步骤2的具体过程为：构建系统优化目标函数为：

；

其中，为时隙的系统优化目标函数；和为权重系数，分别用以表示频谱效率和能量效率的相对重要性，；

在可选基站数量、频谱资源、移动用户设备发射功率阈值和服务质量要求阈值的约束下，构建用户关联和资源分配模型，将用户关联、信道分配和功率控制决策作为模型优化变量，以最大化模型的长期平均效用回报；将用户关联和资源分配模型表示为如下带约束条件的混合整数非线性规划优化问题：；

其中，为最大化模型的长期平均效用回报问题；为总时隙数；为总时隙的集合；

为服务质量要求阈值；约束条件表示第个移动用户设备如何选择基站和子信道的二进制变量，取值范围是0或1；约束条件表示一个移动用户设备在每个时隙只能关联一个基站；约束条件表示一个移动用户设备在每个时隙只能关联一个子信道；约束条件表示对所有移动用户设备所选资源总和不能超过可用基站；约束条件表示对所有移动用户设备所选资源总和不能超过可用信道的上限；约束条件表示每个移动用户设备的发射功率范围；约束条件表示对移动用户设备上行速率的服务质量要求阈值。

5.根据权利要求4所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，所述步骤3中，根据移动用户设备的移动性以及异构蜂窝网络的动态变化，通过基于深度强化学习的独立奖励混合动作空间多智能体近端策略优化算法，求解最优的用户关联以及子信道、功率资源分配策略；

建立系统对应的全局状态空间、局部观察空间、动作空间和奖励空间，异构蜂窝网络中每一个移动用户设备作为一个独立的智能体，智能体数与移动用户设备数相等，每个移动用户设备拥有独立的观察和动作，每个移动用户设备实时向中央控制器报告其本地状态和观察，中央控制器收集并维护全局状态信息，作为系统全局状态空间；

在时隙全局状态空间表示为，其中，表示每个移动用户设备在时隙是否满足服务质量要求，，当用户满足最低速率要求时，否则；表示占用信道中受干扰移动用户设备的数量，表示每个移动用户设备在时隙的干扰大小情况，表示移动用户设备与基站在时隙的通信距离；

每个移动用户设备的局部观察空间表示为，其中，表示

第个移动用户设备在时隙是否满足服务质量要求，当移动用户设备满足最低速率要求时，否则，表示第个移动用户设备在时隙所占用子信道的信道增益，表示第个移动用户设备在时隙所受干扰小大，表示第个移动用户设备在时隙到所通信基站的距离；

动作空间表示每个移动用户设备在当前给定状态下可采取的动作集合，动作空间定义为，和分别代表第个移动用户设备在时隙所选择的基站索引和子信道索引；为第个移动用户设备在时隙的发射功率，在的范围内取值为连续值；

奖励空间中设计如下奖励函数：

；

其中，为第个移动用户设备在时隙的奖励函数值；是用于控制子任务重要性的权重系数；为时隙第个移动用户设备的发射功率；表示第个移动用户设备在服务质量要求约束下用户的速率阈值，定义为：；

系统的平均奖励为：

。

6.根据权利要求5所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，利用算法训练用户关联和资源分配模型，每个智能体以最大化系统频谱效率和能量效率加权效用为优化目标，以实现用户关联和资源分配策略的学习；

在训练过程中，每个智能体拥有自己的演员网络，系统中的所有智能体共享一个评论家网络的算法架构；为每个智能体设计独立的奖励机制，结合基于智能体观察空间采取的动作，独立采样获得轨迹，输入到自身对应演员网络中，并根据轨迹用于网络参数更新；为每个演员网络添加了匹配动作类型数的分支网络层，以处理混合动作空间，分支网络层共享几个前层神经网络，离散动作层输出不同动作的概率，连续动作层输出动作的均值和标准差，离散动作层输出联合分类分布，具体为：；

其中，为离散动作部分的策略，表示在给定局部观察空间的条件下，动作空间中离散动作的分布；代表离散动作部分，为第个演员网络的参数集合，第个演员网络对应第个智能体，也对应第个移动用户设备；为类中所有可能动作的序号，代表类中所有可能动作的数量；为动作的概率；是指示函数，表示是否选择了特定的动作；符合高斯分布的连续动作层的输出表示为：；

其中，为连续动作部分的策略，表示在给定局部观察空间的条件下，动作空间中连续动作的分布；表示正态分布；为动作的均值；为动作的标准差；

使用近端策略优化方法中的损失剪切策略计算损失函数促进演员网络的训练，通过最大化熵来鼓励探索；设计动作屏蔽方法，根据智能体的观察信息，将不可用的动作屏蔽，并将不可用动作的选择概率设置为零；各智能体共享一个全局评论家网络来评估每个智能体的动作决策，全局评论家网络接收全局状态和所有智能体在当前时隙的动作作为输入，评估系统中所有智能体联合动作的价值，并指导训练过程。

7.根据权利要求6所述基于深度强化学习的蜂窝网用户关联与资源分配方法，其特征在于，所述步骤4的具体过程为：步骤4.1、初始化基于深度强化学习的独立奖励混合动作空间多智能体近端策略优化算法中的网络模型参数、移动用户设备与环境交互轨迹；

步骤4.2、移动用户设备收集自身观察信息，中央控制器收集移动用户设备服务需求、位置、信道状态作为全局环境状态；

步骤4.3、将全局状态空间、局部观察空间输入到算法中，算法根据移动用户设备状态输出用户关联和资源分配的配置策略；

步骤4.4、计算系统优化目标和奖励，更新模型状态和移动用户设备观察信息，获得下一状态；

步骤4.5、保存环境中的动作空间、全局状态空间、奖励空间和下一状态空间信息，更新算法的网络模型参数；

步骤4.6、进行集中式迭代训练，优化算法模型；

步骤4.7、各移动用户设备根据自身模型参数，分布式执行各自任务，最终实现用户关联和资源分配的最佳调度策略。