欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2020100213766
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于Q学习的能量阈值动态优化方法,其特征在于:该方法包括以下步骤:S1:设置LAA SBSs的动作集合A={a1,a2...at},其中每一个动作at表示不同的能量阈值的取值,设置状态集合S={s1,s2...st},其中每一个状态st都是由吞吐量和公平性系数组成st={Rt,Ft},初始化Q矩阵为零阶矩阵,LAA SBSs随机选择一个初始状态;

S2:LAA SBSs根据ε‑greedy选择策略选择一个动作at,ε‑greedy动作选择策略采用探索和利用两者相结合的选择方式可以高效准确的进行动作选择;

S3:根据动作at计算出当前选择的动作对应的共存系统吞吐量和公平性系数,获取当前选择动作at的奖励r(st,at):使用ε‑greedy选择策略选取动作at,然后使用动作at计算对应的吞吐量Rt和公平性系数Ft,即确认当前动作对应的状态st={Rt,Ft};对于状态st中的吞吐量Rt,表示LAA系统和WI‑FI系统吞吐量之和,参考Markov链模型求取共存系统的吞吐量;对于状态st中的公平性系数Ft,表示共存系统的公平性系数,定义为: 其中Rl和Rw分别表示LAA和Wi‑Fi的吞吐量,nl和nw分别表示LAA SBSs和Wi‑Fi AP的设备数量,公平性系数Ft越接近1时,共存系统越公平;根据吞吐量和公平性将状态分为如下四个状态,分别为低吞吐量低公平性、低吞吐量高公平性、高吞吐量低吞吐量和高吞吐量高公平性,其中高吞吐量高公平性为LAA SBSs的目标状态;当选取动作at完成后,根据当前选择的动作获取奖励r(st,at),奖励函数定义为: 其中F1°和F2°为定义的最小的公平性系数,只有当动作at对应的吞吐量和公平性系数满足一定条件时,当前选择的动作才会有奖励;

S4:根据学习的Q表更新公式,更新Q表,LAA SBSs进入下一个状态;

S5:重复执行步骤S2及以下步骤,直到Q表收敛完成训练。

2.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法,其特征在于:在步骤S4中,根据Q‑learning的Q表更新公式其中α表示学习速率且0<α<

1,γ表示折扣因子且0≤γ<1。

3.根据权利要求1所述的一种基于Q学习的能量阈值动态优化方法,其特征在于:在步骤S5中,对于本文中的Q学习,只有当前状态达到目标状态,即LAA SBSs当前状态达到高吞吐量高公平性,才算完成一次迭代过程;重复执行步骤S2及以下步骤,直到Q表收敛完成训练。