1.一种基于深度强化学习的异构网络资源能效优化方法,其特征在于,包括:S1、建立异构网络模型,初始化通信环境并设定模拟环境区域,包括基站布局、基站数量、用户设备数量和子载波数量,其中,用户设备和基站之间基于最大信号与干扰加噪声比SINR原则进行关联,基站采用正交频分多址将资源分配给相关用户设备;
S2、根据用户设备的信噪比 网络的容量及能源效率ηEE,确定优化目标;
S3、引入马尔科夫模型,确定智能体、状态空间、动作空间和奖励函数;
S4、构建改进的深度确定性策略梯度算法DDPG,所述改进DDPG算法采用多策略网络Actor网络和单价值网络Critic网络进行分配传输功率和子载波的训练和输出,其中,Actor网络的输入为当前智能体的状态,输出为子载波分配策略和子载波上的发射功率;
Critic网络的输入为智能体的动作、状态,输出为动作的损失和学习到的权重参数;
S5、设置智能体训练回合数、每回合训练步数,每个智能体通过改进DDPG算法与所设定的环境产生不断的交互,优化更新网络参数,获得最优的异构网络资源分配方案。
2.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,所述通信环境包括一个宏基站、N个毫微微基站和M个用户设备,子载波数为K,M个用户设备和N个毫微微基站由宏基站覆盖,其中,N个毫微微基站服从泊松分布,M个用户设备均匀随机分布。
3.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2确定优化目标和约束条件包括:S2‑1、确定用户设备所收到的干扰信号,计算用户设备的信噪比信息;
S2‑2、使用高斯近似处理干扰噪声,计算网络的容量及能源效率;
S2‑3、确定优化目标为:用户设备的信噪比大于最小服务质量要求,并最大化能源效率。
4.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2‑1中计算用户的信噪比信息具体包括:S2‑1‑1、假设每个用户设备在任何时候最多只能选择一个基站,当第i个用户设备选择并连接到第l个基站时,则有:当l=n时,ai,l(t)=1;当l≠n时,ai,l(t)=0,其中,n={1,…,N},ai,l(t)表示在t时刻基站l与用户设备i之间的连接关系,i∈M,l∈N,N为毫微微基站数量,M为用户设备数量;
S2‑1‑2、在第k个子载波上,由第l个基站服务的用户设备i的信噪比 为:其中,k∈K,K为子载波数,ai,l表示基站l与用户设备i之间的连接关系系数, 和 分′ 2别表示第l和l 个基站在第k个子载波上和用户之间的信道增益,σ表示为高斯白噪声,′和 分别表示第l和l个基站在第k个子载波上的发射功率。
5.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2‑2中计算网络的容量及能源效率具体包括:S2‑2‑1、在第k个子载波上,宏基站与其关联用户设备实现的容量 为:其中, 表示宏基站h和用户设备i之间的信道增益, 表示宏基站h在第k个子载波上的发射功率, 表示毫微微基站n和用户设备i之间的信道增益, 表示毫微微基站n在第k2
个子载波上的发射功率,σ表示为高斯白噪声,N为毫微微基站数量;
S2‑2‑2、在第k个子载波上,毫微微基站与其关联用户设备实现的容量 为:其中, 表示毫微微基站n和用户设备i之间的信道增益, 表示毫微微基站n在第k个子载波上的发射功率;
S2‑2‑3、宏基站和毫微微基站共存在网络中的容量Csum为:其中,N为毫微微基站数量;
S2‑2‑4、网络的能源效率ηEE为:
其中,Psum为在网络模型中单位时间内所有基站的功耗,Pn为毫微微基站n的发射功率,Ph为宏基站的发射功率,Pc为宏基站和毫微微基站各电路的功耗。
6.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S2‑3中优化目标及约束条件具体包括:优化目标为:argmaxηEE
约束条件包括:
(d)ai,l(t)∈{0,1}
(e)Pc=C
其中,ηEE表示网络的能源效率; 表示毫微微基站n在第k个子载波上的发射功率,分别为毫微微基站n在第k个子载波上的最小发射功率和最大发射功率;
表示宏基站h在第k个子载波上的发射功率, 分别为宏基站h在第k个子载波上的最小发射功率和最大发射功率; 表示在第k个子载波上第l个基站服务的用户设备i的信噪比,γmin表示最小服务质量要求;ai,l(t)表示在t时刻基站l与用户设备i的连接关系;Pc为宏基站和毫微微基站各电路的功耗,C为常数。
7.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,S3中确定智能体、状态空间、动作空间和奖励函数具体包括:
1)将毫微微基站n作为智能体,所述每个智能体独立更新策略,每个智能体从自己的区域中收集信息并探索网络环境,每个智能体自行选择子载波和发射功率,1≤n≤N;
2)状态空间Sn,k(t)定义为:Sn,k(t)={Mn(t),Pn(t),Ik(t),Gn,k(t),ai,l(t)},其中,Mn(t)表示t时刻毫微微基站的用户数量;Pn(t)表示t时刻毫微微基站的功率;Ik(t)∈{0,1}表示t时刻第k个子载波上来自宏基站的干扰等级,假设宏基站根据服务质量性能的最小容量要求为αh,当 时干扰等级Ik(t)=0,当 时干扰等级Ik(t)=1;Gn,k(t)表示t时刻在第k个子载波毫微微基站n和用户们的信道信息;ai,l(t)表示在t时刻基站与用户的连接关系;
3)动作空间A定义为:A={kn,pn,k(t)},其中,kn表示第n个基站的第k个子载波,k∈K;
pn,k(t)表示t时刻第n个毫微微基站的第k个子载波上的功率值,该值通过算法学习进行自主调整;
4)根据优化目标,奖励函数 定义为用户的能效,即:其中,β是一个小于0的常数。
8.根据权利要求1所述的基于深度强化学习的异构网络资源能效优化方法,其特征在于,所述改进DDPG算法具体包括:采样阶段:
μ
智能体与通信环境产生交互,将当前状态s(t)输入到原Actor网络μ(.|θ),原Actor网μ μ络μ(.|θ)根据策略μ选择动作a(t):a(t)=μ(s(t)|θ)+N0,N0为噪声;
智能体执行动作a(t)后获得环境奖励r(t),并进入下一状态s(t+1),得到经验样本{s(t),a(t),r(t),s(t+1)}并存储到经验池D中,直至存储量达到经验池D的阈值;
训练阶段:
Q
从经验池D中随机采样N个经验样本数据作为原Actor网络,原Critic网络Q(.|θ)的一个训练数据记作{s′(t),a′(t),r′(t),s′(t+1)};
Q
计算原Critic网络Q(.|θ)的损失函数Loss,通过梯度方法最小化损失函数,采用AdamQ优化器反向传播更新Critic网络参数θ;其中损失函数Loss为:μ′ Q′
其中,yi=ri+γQ′(si+1,μ′(si+1|θ )|θ ),γ是一个折扣因子;
μ
定义智能体目标函数为:J(θi)=E[Q(s,μ(s))],最大化目标函数,采用Adam优化
μ
器更新Actor网络参数θ;
将旧的目标网络参数和新的对应网络参数做加权平均,软更新目标Actor网络和目标Critic网络:其中,τ为折扣因子。