1.一种基于深度强化学习的异构云无线接入网资源分配方法,其特征在于:在该方法中,包括:1)以队列稳定为约束,联合拥塞控制、用户关联、子载波分配和功率分配,并建立网络总吞吐量最大化的随机优化模型;2)考虑到调度问题的复杂性,系统的状态空间和动作空间是高维的,DRL算法利用神经网络作为非线性近似函数,高效地解决维度灾难题;3)针对无线网络环境的复杂性和动态多变性,引入迁移学习算法,利用迁移学习的小样本学习特性,使得DRL算法在少量样本的情况下也能获得最优的资源分配策略;
所述队列稳定性指当所有的离散时间队列过程Q(t)满足以下式子,则它是强稳定的:其中所述Q(t)为各个离散时间的队列长度;
所述拥塞控制是为了避免实际网络场景中,网络的瞬时可达容量常常难于估计,因此瞬时随机业务到达率超出网络瞬时容量的情况不可避免,需要借助拥塞控制以保证业务队列的稳定性;
所述用户关联指在某一时刻t上,一个用户只能关联到一个基站上;
所述子载波分配指在同一个RRH或者HPN上每个子载波只可分给一个用户使用或者闲置,其中RRH表示远端无线射频单元,HPN表示高功率节点;
所述功率分配指基站上用户的总传输功率小于等于用户相连基站的最大发射功率;
所述深度强化学习用神经网络作为非线性近似函数时,需要对DQN模型的状态集、动作集和奖励函数公式化,其中DQN表示深度Q网络:状态集:系统的状态集由平均队列长度、信道状态信息和各个基站的发射功率组成,定义为:s(t)={Qavg(t),CSI(t),pH(t),pJ(t)};
其中所述Qavg(t)为时隙t上的平均队列长度;
所述CSI(t)为时隙t上的信道状态信息;
所述pH(t)为宏基站HPN的发射功率;
所述pJ(t)为小基站RRH的发射功率;
动作集:根据上述的状态集,系统将进行用户关联、子载波和功率等无线资源的分配,定义相应的动作集为:
其中所述uij(t)为时隙t上RUE i与小基站RRH j的关联指标;
所述um(t)为时隙t上HUE m与宏基站HPN的关联指标;
所述ρijn(t)为时隙t上RRH j将子载波n分配给RUE i;
所述ρmn(t)为时隙t上HPN将子载波n分配给HUE m;
所述 为RRH用户i的功率分配信息;
所述 为HPN用户m的功率分配信息;
奖励函数:在某一特定的状态下,基站采取某一资源分配动作得到的奖励,奖励函数定义为:
其中所述的Rkj(t)为RUE用户k的传输速率;
所述的Rk(t)为HUE用户的传输速率;
所述的UR为RUE设备的集合;
所述的UH为HUE的设备集合;
所述迁移学习指利用事先学习的知识和技能来识别新任务的学习能力,通过将源基站与环境进行交互得到的训练样本和估值网络的权重参数等迁移到目标基站上,利用交叉熵来衡量源基站与目标基站之间的策略模仿损失。
2.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法,其特征在于:该方法在异构云无线接入网下行链路场景下,利用深度强化学习的方法快速、智能地分配无线资源;所述深度强化学习是指DQN将深度学习的感知能力和强化学习的决策能力相结合,使用估值网络来非线性地近似状态‑动作值函数,在没有先验知识的条件下,自动地从高维的原始数据中抽取特征,从而解决传统状态‑动作表(Q表)导致的存储空间过大的难题。
3.根据权利要求2所述的一种基于深度强化学习的异构云无线接入网资源分配方法,其特征在于:所述使用估值网络来非线性地近似状态‑动作值函数,为了使估值网络的非线性性能达到最优,使用自适应估计(adaptive moment estimation,Adam)算法来更新估值网络的参数w:
其中所述α为DQN估值网络的学习率;
所述 为一阶矩的偏差修正项;
所述 为二阶矩的偏差修正项;
‑8
所述ψ为常量,取值为10 ,防止二阶矩的偏差修正项为0的情况。
4.根据权利要求1所述的一种基于深度强化学习的异构云无线接入网资源分配方法,其特征在于:所述利用交叉熵来衡量源基站与目标基站之间的策略模仿损失指源基站和目标基站在某一特定状态下的Q值都可以转化为相应的策略网络,由于源基站和目标基站处于同一个网络中,两者之间的策略模仿损失可以用交叉熵来进行衡量:其中所述 为源基站通过DQN模型得到的策略网络;
所述πTG(s,a)为目标基站通过DQN得到的目标策略;
通过最小化DQN间的策略模仿损失,目标基站从源基站获得最优的资源分配信息;对目标DQN来说,源基站迁移的策略知识是监督者并指导目的基站快速地具有初始化最优策略的能力,并最终取得最佳的 对比于重新开始学习,这种基于迁移的学习方法避免由于随机选取动作导致的错误,从而使目标基站在一开始就做出最明智的选择。