1.一种非协作下基于Q学习的共存方法,其特征在于:具体步骤如下:S1:设置D2D占空比的动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax};和状态集合S={S1,S2,S3},初始化矩阵为零阶矩阵,基站去探测信道初始状态信息;
S2:基站根据ε‑greedy选择策略选择一个动作At,At∈A;
S3:基站通过执行动作At同时在Wi‑Fi系统使用阶段去探测信道使用情况,即在一个周期内信道处于繁忙状态时间,从而计算出当前动作下的系统的吞吐量和频谱利用率,获取当前选择的动作At的奖励r(St,At);
S4:根据Q学习的Q表公式来更新Q表,基站进入下一个状态;
S5:重复执行S2~S4,直到选择的动作达到目标状态,结束一次迭代;
S6:令t←t+1,重复执行步S2~S5,直至Q矩阵收敛,根据Q矩阵选择出最优的D2D占空比分配序列。
2.根据权利要求1所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S1中对于动作集合A={TDmin,TDmin+X,TDmin+2X,...,TDmax},该集合中每一个动作元素表示不同的D2D占空比,其中TDmin和TDmax分别表示D2D占空比最小阈值和最大阈值,X表示步长,X越大表示动作集合A中元素之间取值跨度越大,同时动作集合A中元素个数越少,与此相反,X越小表示动作集合A中元素之间取值跨度越小,同时动作集合A中元素个数越多,这里X的取值与周期长度和D2D占空比阈值有关,X∈(0,TDmax‑TDmin],同时还应满足 其中Z为整数。
对于状态集合S={S1,S2,S3},集合中每一个状态St都是由吞吐量Rt和频谱利用率Ft组成,对于状态St中的吞吐量Rt,表示D2D系统和Wi‑Fi系统吞吐量之和,其定义为:D2D WiFi
Rt=R +R
D2D WiFi
其中,R 和R 分别表示D2D和Wi‑Fi的吞吐量,TD表示在一个周期时间资源TF中D2D所占用的时间,TWB表示在Wi‑Fi系统使用的时间资源TW里,信道处于繁忙的时间,TW表示智能体基站分配给Wi‑Fi系统所用的时间资源。
对于状态St中的频谱利用率Ft,定义频谱利用率函数定义为:其中TW表示智能体基站分配给Wi‑Fi系统所用的时间资源。
根据预定义的吞吐量和频谱利用率阈值,将所得到的状态分为三种:低吞吐量低频谱利用率、高吞吐量低频谱利用率和高吞吐量高频谱利用率。其中高吞吐量高频谱利用率是系统所要达到的状态目标,定义状态如下所示:其中,Rmin和Fmin分别表示系统吞吐量和频谱利用率的最小阈值。
3.根据权利要求2所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S2中,由于随机选择策略可能会因重复选择策略而产生的多次迭代的情况,贪婪选择策略也可能会出现局部最优的情况,达不到全局最优。因此,在本发明中基站通过ε‑greedy动作选择策略进而来选择动作,两者相结合来更好的来选择动作。ε‑greedy策略定义为:其中在选取动作时,以ε的概率随机选择动作,以1‑ε的概率选择Q表中最大Q值所对应的动作,即最大Q值所对应的D2D占空比。
4.根据权利要求3所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S3中,使用ε‑greedy策略选择动作At,基站通过执行动作At同时在Wi‑Fi系统使用信道阶段探测信道使用情况,从而计算对应的吞吐量Rt和频谱利用率Ft,确认当前动作对应的状态。
此外,在步骤S3中,当选取动作At完成后,根据当前选择的动作获取奖励r(St,At)。奖励函数定义为:
只有当系统吞吐量和频谱利用率达到要求时才会有奖励,即达到高吞吐量高频谱利用率状态。
5.根据权利要求4所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤4中,根据Q学习的Q表更新公式更新Q表,更新公式为:其中α表示学习速率且α∈(0,1),γ表示折扣因子且0≤γ<1。
6.根据权利要求5所述的一种非协作下基于Q学习的共存方法,其特征在于:在步骤S5中,对于本文中的Q学习,只有当前状态达到目标状态,即当前状态达到高吞吐量高频谱利用率,才算完成一次迭代过程。
7.根据权利要求6所述的一种非协作下基于Q学习的共存方法,其特征在于:通过重复执行步骤S2~S5,使Q学习算法中的Q表达到收敛,根据Q矩阵在面对Wi‑Fi流量的随机性时选择出最优的D2D占空比分配序列。