1.NB‑IoT中一种基于Q学习的节能方法,该方法包括以下步骤:S1:基站的状态集合和动作集合;
S2:在t=0时刻,初始化基站的状态和行为Q值为“0”;
S3:计算基站的初始状态st的状态值;
S4:根据ε贪婪方法选择一个行为at(i);
S5:执行行为at(i)后,系统将根据公式获取环境奖励值rt,然后进入到下一个状态st+1;
S6:根据公式更新基站的行为Q值函数;
S7:t←t+1,跳转至步骤S2。
2.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:在步骤S1t t‑1 t‑2 t‑3 1中,基站的状态集合我们表示为一系列先前观测到的信息,即S ={U ,U ,U ,…U},其中
其中, 表示随机接入能耗, 表示设备等待能耗, 表示数据传输能耗, 表示等待设备数量, 表示通信设备数量, 表示接入失败设备数量。
对于行为集合,将每个TTI中允许发起随机接入的设备数量与当前TTI中总活跃设备的比例作为基站行为,并且根据有限动作集合的马尔科夫过程定义任意第t个TTI中基站行为t
α∈{0.2,0.4,0.6,0.8,1.0}。
3.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:设置基站的状态和行为Q值为零矩阵。
4.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:对于基站*
马尔科夫决策过程的求解目标是寻找一个最优策略π,以使得每一个状态s的值V(s)同时达到最大。状态值函数表示如下:其中r(st,at)表示基站从环境中获取的奖励值,p(st+1|st,at)表示基站当处于状态st时选择行为at后转移到状态st+1的概率。
5.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:步骤S4总基站的目标是获取较高的奖励值,因此,在每个状态下,将会选择具有较高Q值的动作。但是在学习的初始阶段,对于状态‑动作的经验比较少,Q值不能准确地表示正确的最优值,最高Q值的动作导致了基站总是沿着相同的路径而不可能探索到其他更好的值,从而容易陷入局部最优。因此引入ε贪婪策略,其主要原理如下:智能体以ε的概率随机选择动作,以1‑ε的概率选择使Q值最大的动作。
6.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:在步骤S5中,基站执行选择的行为后将从环境中获取一个奖励值,奖励值函数定义为:t
其中 表示服务设备数,N表示总传输设备个数,T表示TTI个数,E表示第t个TTI中的系统总能耗。
其中,
t
n表示当前TTI允许接入设备数,r表示重复次数,μ表示传输数据资源,Q表示上行链路i
总资源,Qrach表示随机接入资源,m表示前导码的个数。
t
E=Esy,t+Era,t+Ewait,t+Edt,tEsy,t表示同步能耗,Era,t表示随机接入能耗,Ewait,t表示设备等待能耗,Edt,t表示数据传输能耗。
7.根据权利要求1所述的NB‑IoT中一种基于Q学习的节能方法,其特征在于:在步骤S6中,基站在从环境中获取奖励值后,需要对Q矩阵进行更新,其更新公式为:上式中α表示学习速率且0<α<1,Υ表示折扣因子且0≤Υ<1。学习速率和折扣因子协同作用调节Q矩阵的更新,进而影响Q算法的学习性能,α取值0.01,Υ取值0.8。