买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的异构网络资源能效优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的异构网络资源能效优化方法

面议

专利号： 2023105146704

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的异构网络资源能效优化方法，其特征在于，包括：S1、建立异构网络模型，初始化通信环境并设定模拟环境区域，包括基站布局、基站数量、用户设备数量和子载波数量，其中，用户设备和基站之间基于最大信号与干扰加噪声比SINR原则进行关联，基站采用正交频分多址将资源分配给相关用户设备；

S2、根据用户设备的信噪比网络的容量及能源效率ηEE，确定优化目标；

S3、引入马尔科夫模型，确定智能体、状态空间、动作空间和奖励函数；

S4、构建改进的深度确定性策略梯度算法DDPG，所述改进DDPG算法采用多策略网络Actor网络和单价值网络Critic网络进行分配传输功率和子载波的训练和输出，其中，Actor网络的输入为当前智能体的状态，输出为子载波分配策略和子载波上的发射功率；

Critic网络的输入为智能体的动作、状态，输出为动作的损失和学习到的权重参数；

S5、设置智能体训练回合数、每回合训练步数，每个智能体通过改进DDPG算法与所设定的环境产生不断的交互，优化更新网络参数，获得最优的异构网络资源分配方案。

2.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，所述通信环境包括一个宏基站、N个毫微微基站和M个用户设备，子载波数为K，M个用户设备和N个毫微微基站由宏基站覆盖，其中，N个毫微微基站服从泊松分布，M个用户设备均匀随机分布。

3.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，S2确定优化目标和约束条件包括：S2‑1、确定用户设备所收到的干扰信号，计算用户设备的信噪比信息；

S2‑2、使用高斯近似处理干扰噪声，计算网络的容量及能源效率；

S2‑3、确定优化目标为：用户设备的信噪比大于最小服务质量要求，并最大化能源效率。

4.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，S2‑1中计算用户的信噪比信息具体包括：S2‑1‑1、假设每个用户设备在任何时候最多只能选择一个基站，当第i个用户设备选择并连接到第l个基站时，则有：当l＝n时，ai,l(t)＝1；当l≠n时，ai,l(t)＝0，其中，n＝{1,…,N}，ai,l(t)表示在t时刻基站l与用户设备i之间的连接关系，i∈M，l∈N，N为毫微微基站数量，M为用户设备数量；

S2‑1‑2、在第k个子载波上，由第l个基站服务的用户设备i的信噪比为：其中，k∈K，K为子载波数，ai,l表示基站l与用户设备i之间的连接关系系数，和分′ 2别表示第l和l 个基站在第k个子载波上和用户之间的信道增益，σ表示为高斯白噪声，′和分别表示第l和l个基站在第k个子载波上的发射功率。

5.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，S2‑2中计算网络的容量及能源效率具体包括：S2‑2‑1、在第k个子载波上，宏基站与其关联用户设备实现的容量为：其中，表示宏基站h和用户设备i之间的信道增益，表示宏基站h在第k个子载波上的发射功率，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k2

个子载波上的发射功率，σ表示为高斯白噪声，N为毫微微基站数量；

S2‑2‑2、在第k个子载波上，毫微微基站与其关联用户设备实现的容量为：其中，表示毫微微基站n和用户设备i之间的信道增益，表示毫微微基站n在第k个子载波上的发射功率；

S2‑2‑3、宏基站和毫微微基站共存在网络中的容量Csum为：其中，N为毫微微基站数量；

S2‑2‑4、网络的能源效率ηEE为：

其中，Psum为在网络模型中单位时间内所有基站的功耗，Pn为毫微微基站n的发射功率，Ph为宏基站的发射功率，Pc为宏基站和毫微微基站各电路的功耗。

6.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，S2‑3中优化目标及约束条件具体包括：优化目标为：argmaxηEE

约束条件包括：

(d)ai,l(t)∈{0,1}

(e)Pc＝C

其中，ηEE表示网络的能源效率；表示毫微微基站n在第k个子载波上的发射功率，分别为毫微微基站n在第k个子载波上的最小发射功率和最大发射功率；

表示宏基站h在第k个子载波上的发射功率，分别为宏基站h在第k个子载波上的最小发射功率和最大发射功率；表示在第k个子载波上第l个基站服务的用户设备i的信噪比，γmin表示最小服务质量要求；ai,l(t)表示在t时刻基站l与用户设备i的连接关系；Pc为宏基站和毫微微基站各电路的功耗，C为常数。

7.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，S3中确定智能体、状态空间、动作空间和奖励函数具体包括：

1)将毫微微基站n作为智能体，所述每个智能体独立更新策略，每个智能体从自己的区域中收集信息并探索网络环境，每个智能体自行选择子载波和发射功率，1≤n≤N；

2)状态空间Sn,k(t)定义为：Sn,k(t)＝{Mn(t),Pn(t),Ik(t),Gn,k(t),ai,l(t)}，其中，Mn(t)表示t时刻毫微微基站的用户数量；Pn(t)表示t时刻毫微微基站的功率；Ik(t)∈{0,1}表示t时刻第k个子载波上来自宏基站的干扰等级，假设宏基站根据服务质量性能的最小容量要求为αh，当时干扰等级Ik(t)＝0，当时干扰等级Ik(t)＝1；Gn,k(t)表示t时刻在第k个子载波毫微微基站n和用户们的信道信息；ai,l(t)表示在t时刻基站与用户的连接关系；

3)动作空间A定义为：A＝{kn,pn,k(t)}，其中，kn表示第n个基站的第k个子载波，k∈K；

pn,k(t)表示t时刻第n个毫微微基站的第k个子载波上的功率值，该值通过算法学习进行自主调整；

4)根据优化目标，奖励函数定义为用户的能效，即：其中，β是一个小于0的常数。

8.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法，其特征在于，所述改进DDPG算法具体包括：采样阶段：

智能体与通信环境产生交互，将当前状态s(t)输入到原Actor网络μ(.|θ)，原Actor网μ μ络μ(.|θ)根据策略μ选择动作a(t)：a(t)＝μ(s(t)|θ)+N0，N0为噪声；

智能体执行动作a(t)后获得环境奖励r(t)，并进入下一状态s(t+1)，得到经验样本{s(t),a(t),r(t),s(t+1)}并存储到经验池D中，直至存储量达到经验池D的阈值；

训练阶段：

从经验池D中随机采样N个经验样本数据作为原Actor网络，原Critic网络Q(.|θ)的一个训练数据记作{s′(t),a′(t),r′(t),s′(t+1)}；

计算原Critic网络Q(.|θ)的损失函数Loss，通过梯度方法最小化损失函数，采用AdamQ优化器反向传播更新Critic网络参数θ；其中损失函数Loss为：μ′ Q′

其中，yi＝ri+γQ′(si+1,μ′(si+1|θ )|θ )，γ是一个折扣因子；

定义智能体目标函数为：J(θi)＝E[Q(s,μ(s))]，最大化目标函数，采用Adam优化

器更新Actor网络参数θ；