1.一种授权和免授权D2D通信资源联合智能分配方法,包括以下步骤:S1:建立D2D用户通信模型;
S2:建立需要优化的目标函数;
S3:建立多智能体深度强化学习D2D通信模型;
S4:设置多智能体的动作集合,状态集合和奖励函数;
S5:智能体根据自身的Actor网络采取动作,获得状态和奖励以及下一个状态;
S6:计算Critic网络的TD error,并更新Critic网络参数,Critic网络计算每个智能体的反事实基线,通过反事实基线更新Actor网络参数,更新状态。
S7:重复步骤S5‑S6,直到达到目标状态。
2.根据权力要求1所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于:在步骤S1中。计算得到接入WiFi频段的D2D数量,但选择哪些D2D去WiFi频段是一个模式选择问题,而剩下的D2D的功率和信道选择仍然对CU用户有着严重的影响。
复用许可频段:在这个模式中,两个D2D可以复用同一个现有蜂窝用户的上行链路直接进行通信。复用蜂窝用户m的信道的D2D对k的频谱效率为:在式中pk,m是第k个D2D对的发射功率, 是蜂窝用户m的发射功率, 是D2D k到蜂窝C
用户m的信道增益,B是许可的信道带宽, 是噪声功率密度,hk,m是蜂窝用户m与D2D对k的接收机之间的干扰功率增益。蜂窝用户m被D2D对k复用的频谱效率为:其中 是蜂窝用户m和基站的信道功率增益,hk,B为D2D发射端k和基站间的信道增益。
D2D通信的存在会对蜂窝和WiFi用户有较大的影响,所以提出一种在满足WiFi用户最低吞吐量条件下,确定出能够接入WiFi授权频段的最大D2D的数量后,对总的D2D用户进行模式选择和资源的分配,以最大程度地减少D2D通信引起的蜂窝和WiFi用户的下降。
当xi=1,则D2D对i复用上行蜂窝用户的信道,xi=0,则D2D对i将接入WiFi免授权频段。
当θi,m=1,表示D2D对i复用上行蜂窝用户m的信道,θi,m=0,表示D2D对i未复用上行蜂窝用户m的信道。
3.根据权力要求2所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步:在步骤S2中,为了得到最大蜂窝用户和授权频段D2D用户系统吞吐量,从而有s.t.xk∈{0,1},θk,m∈{0,1}
0≤pk,m≤pmax
上式第一项表示D2D用户接入授权与免授权的选择,第二项表示D2D用户的功率限制,第三项表示满足最低WiFi吞吐量要求,第四项表示确保D2D用户和蜂窝用户满足最低信噪比要求。
4.根据权力要求3所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步:在步骤S3中,为了解决D2D通信资源分配中的NP‑hard难题,采用一种多智能体强化学习方法,COMA(Counterfactual Multi‑Agent),将多智能体环境建模为马尔可夫博弈来优化策略,同时考虑其他智能体的行为策略,方法是将单个智能体对奖励的影响边缘化,将智能体在某个时间点t,采取的行为与它在t可能采取的所有其他行为进行比较,这可以通过一个集中的Critic来实现,所以所有智能体的价值函数是相同的,但是每个智能体会根据自己的反事实动作接收一个定制的错误项。在协作智能体系统中,评价一个智能体的动作贡献到底是多少时,可以把这个智能体的动作换成一个默认的动作,看看当前的动作跟默认的动作相比使得总体的得分增加了还是减少了,如果增加了,说明智能体的当前动作比默认动作好,如果减少了,则说明智能体当前动作比默认动作差。而这个默认的动作就称为基线。然而接下来的问题是,如何确定这个默认的动作,比如通过某种方式确认了默认动作,那么这个默认的动作的好坏还需要额外的模拟进行评估,这无疑增加了计算的复杂性。COMA没有使用默认的动作,也没有用额外的模拟计算这个基线,而是利用当前的策略,利用当前的行为值函数对当前智能体的策略求解边缘分布来计算这个基线。通过这种方式,COMA可以避免设计额外的默认动作和额外的模拟计算。因此,对于每个智能体来说,以便能够更好的学习需要多智能体协调的策略。COMA提供一种高效的算法来为奖励函数执行credit分配,深度学习训练过程将导致大量的计算开销。训练过程在BS完成,将D2D用户在执行过程中收集到的历史信息上传到BS,在BS完成集中式训练,在基站上Critic获得智能j
体的策略用来评估采取动作的好坏。分布式执行过程中,D2D用户从基站获取的A (s,u)更新自己的Actor网络中,Actor基于智能体从环境中观测到的状态选择行为,智能体不断与环境交互,智能体进行足够多的训练次数,最终将收敛于一个奖励值最大的动作上,从而得到最优的策略。
5.根据权力要求4所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步,在步骤S4中,在D2D底层通信的RL模型中,智能体D2D对与环境交互并根据策略采t
取相应的行为。在每个时刻t,智能体D2D对从状态空间S中观测一个状态s,并根据策略π从动作空间A中采取相应的行为(选择模式、选择RB、选择功率级别)。在执行该行为之后,环境t+1
进入新的状态s ,agent获得奖励。状态空间S:在任何时间t,系统状态均由所有D2D在该时间t的联合SINR值表示
动作空间A: 分别为模式选择,功率级别选择,和RB选择其中,模式选择:2,功率级别:10,RB选择:20。所以每个智能体的动作空间数位:α×β×η=400。
奖励函数R:RL中的奖励函数驱动整个学习过程,因此合理的reward函数是关键,奖励函数设计三个部分:D2D的选择模式、D2D和蜂窝用户的速率以及二者的信噪比,智能体如果选择的模式时进入免授权频段,那么将其获得的奖励设置为一个正值,但是当D2D数量超过满足的最大接入数量后,将获得较大的负值,如果智能体采取的行为使得蜂窝用户和D2D用户的信噪比大于设定的阈值,则以其对应的速率和选择的相同复用频谱的蜂窝用户奖励之和作为奖励,反之,如果智能体采取的行为,导致D2D或者蜂窝用户的信噪比小于设定的阈值,则奖励函数为负值,因为小于信噪比将导致信号不能解码。
限制进入免授权模式数量的限定设计了一个函数对D2D和CU的SINR进行限制
其中
6.根据权力要求5所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步:在步骤S5中,首先初始化网络中的超参数γ,αθ,αλ, β,状态s0和Actor,Critic网络中的参数 每个智能体根据自身的策略网络采取概率最大的动作,作为在当前状态下采取的动作,因此将所有智能体采取的动作状态联合起来可以得到,从环境状态st下的联合动作at,D2D SINR奖励 和下一个状态st+1。
7.根据权力要求6所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步,在步骤S6中,蒙特卡洛方法为无模型学习提供了基础,但他们仍然又不连续、离线学习的限制。TD error方法弥补了蒙特卡罗方法和动态规划之间的差距,是RL的核心思想。TD方法同样可以在无模型的环境中学习,可以从价值估计中迭代学习(在线学习),从而允许在连续环境中进行训练。从Critic网络中计算TD error:策略参数更新是基于策略梯度进行的,TD误差采用梯度上升法:λt+1=λt+αλ▽λQλ(st,ut)δt为了解决多智能体中的置信分配问题。COMA算法利用反事实基线解决了置信分配问题,方法是将单个智能体对奖励的影响边缘化,并将智能体在某个时间t采取的行为与t时可能采取的所有其他行为进行比较,这通过集中的Critic来实现,因此所有智能体的值函数时相同的,但是每个智能体都会根据自己的反事实行为得到一个特定的误差项。第j个智能体反事实基线定义为:
第j个智能体通过反事实基线,更新自身的Actor网络参数,依据公式:智能体根据Critic网络获得的优势函数,进行网络更新。
8.根据权力要求7所述的一种授权和免授权D2D通信资源联合智能分配方法,其特征在于进一步,在步骤S7中,训练过程由BS完成,将D2D用户在执行过程中收集到的历史信息上传到BS,在BS完成集中式训练,在基站上Critic获得智能体的策略用来评估采取动作的好坏。训练过程在BS完成,将D2D用户在执行过程中收集到的历史信息上传到BS,在BS完成集中式训练,在基站上Critic获得智能体的策略用来评估采取动作的好坏。分布式执行过程j
中,D2D用户从基站获取的A (s,u)更新自己的Actor网络中,Actor基于智能体从环境中观测到的状态选择行为,智能体不断与环境交互,智能体进行足够多的训练次数,最终将收敛于一个奖励值最大的动作上,从而得到最优的策略。