买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于Q学习的资源分配方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于Q学习的资源分配方法

￥22200

专利号： 2021100751814

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-01-15

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于Q学习的资源分配方法，其特征在于：该方法具体步骤如下：S1：初始化参数：设置Q表为零矩阵，初始化学习率α、折扣率γ、蜂窝用户信噪比阈值蜂窝用户信噪比最低要求共存系统吞吐量阈值Rth、共存系统吞吐量最小值要求Rmin、共存系统公平性阈值Rth、共存系统公平性最小值要求Fmin、D2D用户最小发射功率要求Pmin、D2D用户最大发射功率要求Pmax；

S2：设置小基站智能体的动作和状态空间：小基站的动作集合定义为D2D用户的发射功率和免授权频段的占空比的不同组合，at＝{P1,t,P2,t,...Pk,t,φt}，其中Pk,t是在t时刻智能体给D2D用户对k分配的发射功率，且Pk,t∈[Pmin,Pmax]，φt是在t时刻小基站分配给D2D‑U系统的占空比，且φt∈(0,1)，小基站的状态集合定义为蜂窝用户的信噪比、共存系统的吞吐量、公平性的不同组合，即其中SNRt是t时刻蜂窝用户的信噪比，Rt是t时刻是D2D‑U系统与WiFi系统的总体吞吐量，定义为Rt＝φtRD2D‑U(t)+(1‑φt)RWiFi(t)，Ft是t时刻共存系统的公平性，定义为其中φtRD2D‑U(t)/K表示每个D2D‑U用户的平均吞吐量，(1‑φt)RWiFi(t)/N表示每个WiFi用户的平均吞吐量，根据预先定义蜂窝用户的信噪比、共存系统吞吐量和公平性阈值，可以将智能体的状态分为8种：低信噪比低吞吐量低公平性、低信噪比低吞吐量高公平性、低信噪比高吞吐量低公平性、低信噪比高吞吐量高公平性、高信噪比低吞吐量低公平性、高信噪比低吞吐量高公平性、高信噪比高吞吐量低公平性、高信噪比高吞吐量高公平性；

S3：在t时刻，初始化小基站的状态st：小基站从状态集合里面首先随机选择一个状态作为初始状态；

S4：小基站根据公式定义的动作选择策略选择动作at，并执行该动作：智能体采用ε‑greedy动作选择策略，其定义为其中小基站以ε的概率随机选择动作，以1‑ε的概率选择Q表中Q值最大所对应的动作；

S5：小基站根据公式获取当前动作所对应的环境奖励值rt，并根据公式确定下一状态st+1：小基站根据动作选择策略选择动作后，根据奖励函数获得环境奖励；奖励函数定义为其中η、λ、μ分别表示蜂窝用户信噪比、共存系统总体吞吐量和公平性的权衡因子；

S6：小基站根据公式更新当前状态和动作所对应的Q值函数，并进入下一状态：小基站在获得环境奖励后，需要更新Q值，Q值更新公式为：其中α是学习速率且0＜α＜1，它是更新Q值的速率，α值越高意味着Q值的大小将快速更新，并且需要较少的迭代学习，较低的α值将缓慢更新Q值，并需要更多的迭代来学习；γ是折扣率且0＜γ＜1，γ表示对未来奖励的重视程度，较高的γ值可以捕获长期有效奖励，而较低的γ值使得智能体更关注即时奖励；

S7：直到达到目标状态，否则跳转步骤S4：小基站不断地与环境进行交互，通过选择动作直到达到高信噪比高吞吐量高公平性的目标；

S8：t←t+1，跳转至步骤S3。