利索能及
我要发布
收藏
专利号: 2021100751814
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-01-15
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Q学习的资源分配方法,其特征在于:该方法具体步骤如下:S1:初始化参数:设置Q表为零矩阵,初始化学习率α、折扣率γ、蜂窝用户信噪比阈值蜂窝用户信噪比最低要求 共存系统吞吐量阈值Rth、共存系统吞吐量最小值要求Rmin、共存系统公平性阈值Rth、共存系统公平性最小值要求Fmin、D2D用户最小发射功率要求Pmin、D2D用户最大发射功率要求Pmax;

S2:设置小基站智能体的动作和状态空间:小基站的动作集合定义为D2D用户的发射功率和免授权频段的占空比的不同组合,at={P1,t,P2,t,...Pk,t,φt},其中Pk,t是在t时刻智能体给D2D用户对k分配的发射功率,且Pk,t∈[Pmin,Pmax],φt是在t时刻小基站分配给D2D‑U系统的占空比,且φt∈(0,1),小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合,即 其中SNRt是t时刻蜂窝用户的信噪比,Rt是t时刻是D2D‑U系统与WiFi系统的总体吞吐量,定义为Rt=φtRD2D‑U(t)+(1‑φt)RWiFi(t),Ft是t时刻共存系统的公平性,定义为 其中φtRD2D‑U(t)/K表示每个D2D‑U用户的平均吞吐量,(1‑φt)RWiFi(t)/N表示每个WiFi用户的平均吞吐量,根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值,可以将智能体的状态分为8种:低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性;

S3:在t时刻,初始化小基站的状态st:小基站从状态集合里面首先随机选择一个状态作为初始状态;

S4:小基站根据公式定义的动作选择策略选择动作at,并执行该动作:智能体采用ε‑greedy动作选择策略,其定义为 其中小基站以ε的概率随机选择动作,以1‑ε的概率选择Q表中Q值最大所对应的动作;

S5:小基站根据公式获取当前动作所对应的环境奖励值rt,并根据公式确定下一状态st+1:小基站根据动作选择策略选择动作后,根据奖励函数获得环境奖励;奖励函数定义为其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子;

S6:小基站根据公式更新当前状态和动作所对应的Q值函数,并进入下一状态:小基站在获得环境奖励后,需要更新Q值,Q值更新公式为:其中α是学习速率且0<α<1,它是更新Q值的速率,α值越高意味着Q值的大小将快速更新,并且需要较少的迭代学习,较低的α值将缓慢更新Q值,并需要更多的迭代来学习;γ是折扣率且0<γ<1,γ表示对未来奖励的重视程度,较高的γ值可以捕获长期有效奖励,而较低的γ值使得智能体更关注即时奖励;

S7:直到达到目标状态,否则跳转步骤S4:小基站不断地与环境进行交互,通过选择动作直到达到高信噪比高吞吐量高公平性的目标;

S8:t←t+1,跳转至步骤S3。