利索能及-专利交易平台_专利购买_专利出售-买专利,卖专利上利索能及

欢迎来到利索能及~ 联系电话：18621327849

查出售查求购

我要发布

专利交易专利求购

一种非协作下基于Q学习的共存方法

￥21000

专利号： 202210036364X

申请人：重庆邮电大学

专利类型：发明专利

专利状态：授权未缴费

专利领域：电通信技术

更新日期：2024-10-29

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种非协作下基于Q学习的共存方法，其特征在于：具体步骤如下：S1：设置D2D占空比的动作集合A＝{TDmin，TDmin+X,TDmin+2X,...,TDmax}；和状态集合S＝{S1,S2,S3}，初始化矩阵为零阶矩阵，基站去探测信道初始状态信息；

S2：基站根据ε‑greedy选择策略选择一个动作At，At∈A；

S3：基站通过执行动作At同时在Wi‑Fi系统使用阶段去探测信道使用情况，即在一个周期内信道处于繁忙状态时间，从而计算出当前动作下的系统的吞吐量和频谱利用率，获取当前选择的动作At的奖励r(St,At)；

S4：根据Q学习的Q表公式来更新Q表，基站进入下一个状态；

S5：重复执行S2～S4，直到选择的动作达到目标状态，结束一次迭代；

S6：令t←t+1，重复执行步S2～S5，直至Q矩阵收敛，根据Q矩阵选择出最优的D2D占空比分配序列。

2.根据权利要求1所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S1中对于动作集合A＝{TDmin，TDmin+X,TDmin+2X,...,TDmax}，该集合中每一个动作元素表示不同的D2D占空比，其中TDmin和TDmax分别表示D2D占空比最小阈值和最大阈值，X表示步长，X越大表示动作集合A中元素之间取值跨度越大，同时动作集合A中元素个数越少，与此相反，X越小表示动作集合A中元素之间取值跨度越小，同时动作集合A中元素个数越多，这里X的取值与周期长度和D2D占空比阈值有关，X∈(0,TDmax‑TDmin]，同时还应满足其中Z为整数。

对于状态集合S＝{S1,S2,S3}，集合中每一个状态St都是由吞吐量Rt和频谱利用率Ft组成，对于状态St中的吞吐量Rt，表示D2D系统和Wi‑Fi系统吞吐量之和，其定义为：D2D WiFi

Rt＝R +R

D2D WiFi

其中，R 和R 分别表示D2D和Wi‑Fi的吞吐量，TD表示在一个周期时间资源TF中D2D所占用的时间，TWB表示在Wi‑Fi系统使用的时间资源TW里，信道处于繁忙的时间，TW表示智能体基站分配给Wi‑Fi系统所用的时间资源。

对于状态St中的频谱利用率Ft，定义频谱利用率函数定义为：其中TW表示智能体基站分配给Wi‑Fi系统所用的时间资源。

根据预定义的吞吐量和频谱利用率阈值，将所得到的状态分为三种：低吞吐量低频谱利用率、高吞吐量低频谱利用率和高吞吐量高频谱利用率。其中高吞吐量高频谱利用率是系统所要达到的状态目标，定义状态如下所示：其中，Rmin和Fmin分别表示系统吞吐量和频谱利用率的最小阈值。

3.根据权利要求2所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S2中，由于随机选择策略可能会因重复选择策略而产生的多次迭代的情况，贪婪选择策略也可能会出现局部最优的情况，达不到全局最优。因此，在本发明中基站通过ε‑greedy动作选择策略进而来选择动作，两者相结合来更好的来选择动作。ε‑greedy策略定义为：其中在选取动作时，以ε的概率随机选择动作，以1‑ε的概率选择Q表中最大Q值所对应的动作，即最大Q值所对应的D2D占空比。

4.根据权利要求3所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S3中，使用ε‑greedy策略选择动作At，基站通过执行动作At同时在Wi‑Fi系统使用信道阶段探测信道使用情况，从而计算对应的吞吐量Rt和频谱利用率Ft，确认当前动作对应的状态。

此外，在步骤S3中，当选取动作At完成后，根据当前选择的动作获取奖励r(St,At)。奖励函数定义为：

只有当系统吞吐量和频谱利用率达到要求时才会有奖励，即达到高吞吐量高频谱利用率状态。

5.根据权利要求4所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤4中，根据Q学习的Q表更新公式更新Q表，更新公式为：其中α表示学习速率且α∈(0，1)，γ表示折扣因子且0≤γ<1。

6.根据权利要求5所述的一种非协作下基于Q学习的共存方法，其特征在于：在步骤S5中，对于本文中的Q学习，只有当前状态达到目标状态，即当前状态达到高吞吐量高频谱利用率，才算完成一次迭代过程。

7.根据权利要求6所述的一种非协作下基于Q学习的共存方法，其特征在于：通过重复执行步骤S2～S5，使Q学习算法中的Q表达到收敛，根据Q矩阵在面对Wi‑Fi流量的随机性时选择出最优的D2D占空比分配序列。