1.一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,包括:S1:获取各个网络属性,根据用户对各个网络属性的最低容忍度设置阈值;根据设置的阈值对网络进行筛选,得到符合用户需求的网络;
S2:采用层次分析法和熵权法确定各个网络的属性综合权重;
S3:根据网络的属性综合权重采用灰色关联分析法计算网络的加权灰色相关系数;
S4:根据加权灰色相关系数将多用户接入问题建模为多人随机博弈模型;
S5:采用深度确定性策略梯度法求解多人随机博弈模型的最优策略,根据最优策略将用户接入网络。
2.根据权利要求1所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,对网络进行筛选的过程包括:S11:获取各个网络的属性,该属性包括带宽、能效、时延、抖动以及资费;
S12:获取用户对不同网络属性的最低容忍度,计算最低容忍度的平均值,得到参考网络H,该参考网络的最低容忍度平均值为设置阈值;
S13:将候选网络与参考网络H进行对比,若候选网络中存在一个属性低于设置的阈值,则在候选网络中删除该网络,若候选网络中的所有属性大于等于设置的阈值,则在候选网络中保留该网络。
3.根据权利要求1所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,采用层次分析法和熵权法确定各个网络的属性综合权重的过程包括:S21:构建层次模型,该层次模型包括目标层、准则层以及方案层,其中目标层表示请求特定业务的用户期望访问的最佳网络,准则层表示业务请求服务对网络参数的需求,方案层表示系统模型中的候选网络;
S22:对同一层网络属性进行两两比较,并采用1‑9标度赋值法构建判决属性比较矩阵;
S23:对判决属性比较矩阵进行归一化处理,得到网络属性权重;
S24:根据判决属性比较矩阵计算该矩阵的一致性比率,设置一致性比率阈值,若矩阵的一致性比率小于等于设置的一致性比率阈值,则该网络属性权重合理,否则重新构建判决属性比较矩阵,直到满足设置一致性比率阈值为止;
S25:构建属性判决矩阵,对该矩阵进行标准化;对标准化的属性判决矩阵进行归一化处理;
S26:计算归一化处理后的属性判决矩阵的信息熵;
S27:根据信息熵计算网络属性的熵权,得到网络属性的客观权值;
S28:采用乘积法将网络属性权重和客观权值进行处理,并对处理后的权重进行归一化处理,得到网络属性的综合权重。
4.根据权利要求3所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,网络属性的综合权重的表达式为:其中, 表示网络属性权重,i表示网络决策属性类型,k表示用户业务类型,βi表示网络属性的客观权值,l表示每个网络决策属性类型的总数。
5.根据权利要求1所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,计算网络的加权灰色相关系数的过程包括:S31:构建网络属性矩阵E;
S32:对网络属性矩阵进行标准化和归一化处理,得到归一化后的网络属性矩阵E′;
S33:确定网络的属性类别,根据属性类别确定最优参考网络的属性;
S34:分别计算候选网络中不同属性于参考网络对应属性的相关性,得到灰色相关系数;
S35:将灰色相关系数和属性综合权重相乘,得到加权灰色相关系数。
6.根据权利要求5所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,灰色相关系数的计算公式为:其中,ρ表示分辨系数,e′oj表示参考网络中第j个属性,e′ij表示归一化后的网络属性矩阵中的第i行第j列的元素。
7.根据权利要求1所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,构建多人随机博弈模型的过程包括:获取环境状态S、一组动作A1,…,AN和一组智能体对环境的部分观测集合O1,…,ON,其中表示连接到提供业务k的网络i的终端用户的数量n,A={a|a=1,2…,m},A表示用户终端在特定网络状态下选择的某一个候选网络;
每个智能体根据自己的策略 选择动作An,策略函数表示为根据智能体的选择动作和转移概率确定环境的下一个状态,转移概率为P:S×A1×…×AN→S;每个智能体选择动作之后会从环境中得到一个奖励rn和对环境的新的部分观测数据on,奖励函数表示为rn:S×An→R,观察函数表示为on:S→On;
根据加权灰色相关系数计算能够表示用户QoS的网络效用函数则每个用户终端的奖励函数rn(on,an)=Q(1‑η),其中η表示网络负载,每个用户终端的回报函数为 用户终端的联合回报函数表示为其中,γ表示折扣系数,T表示时间范围;根据回报函数寻找最优策π
略,使累积预期回报Rn最大,即表示为 其中ρ表示状态分布函数,J(θn)表示预期回报Rn的期望, 表示求期望的函数,θn表示神经网络参数, 表示智能体策略函数。
8.根据权利要求1所述的一种基于深度强化学习的5G超密集网络多用户接入选择方法,其特征在于,求解最优策略的过程包括:S51:构建评价网络和策略网络;其中评价网络包括状态估计网络和状态现实网络,策略网络包括动作估计网络和动作现实网络;
S52:将切换决策数据存储到空间D中,用于重复学习和对评价网络、策略网络进行训练;切换决策数据为一个元组 包括决策时刻t的环境状态、所有智能体的动作和奖励以及下一决策时刻t+1的环境状态;
S53:存储空间D中随机抽取M组切换数据作为训练样本,将训练样本输入到状态估计网络中进行训练,得到训练好的状态估计网络;
S54:采用策略梯度的方式对动作估计网络进行更新;计算策略梯度,采用梯度上升法使得动作估计网络参数 朝着值函数增大的方向更新,并通过训练后的状态估计网络获取状态动作对的Q值;
S55:根据状态估计网络和动作估计网络的参数采用移动平均方法分别对状态现实网络和动作现实网络进行软更新;
S56:进行L次循环迭代,每次循环迭代从初始时刻开始,得到初始化网络状态,直至终止时刻;在每个决策时刻进行S53‑S55的操作步骤,训练更新网络参数;根据训练好的策略网络确定最优接入策略。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现权利要求1至8中任一项基于深度强化学习的5G超密集网络多用户接入选择方法。
10.一种基于深度强化学习的5G超密集网络多用户接入选择装置,其特征在于,包括处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述一种基于深度强化学习的5G超密集网络多用户接入选择装置执行权利要求1至8中任一项基于深度强化学习的5G超密集网络多用户接入选择方法。