1.基于区分服务的IEEE 802.15.4协议的智能CSMA/CA退避方法,其特征在于,包括以下步骤:S1、将到达节点的数据业务划分为高优先级和低优先级,每个节点维护高优先级队列和低优先级队列两个队列;
S2、设置第一贪婪率,按照第一贪婪率从低优先级队列中选择业务进入高优先级队列进行信道接入;
S3、构建强化学习模型,将无线传感器作为智能体,根据智能体在各个状态下执行的动作得到的奖励构建奖励值表;
BE
S4、利用构建的强化学习模型进行信道接入,即在(0,2 ‑1)范围内随机延迟一个退避周期,其中,BE表示退避指数的值,包括以下步骤:初始化传感器节点的奖励值表、学习效率、贪婪率以及回退次数;
判断节点数据包的优先级,根据优先级初始化该数据包的退避指数和竞争窗口长度,初始化后退次数和竞争窗口长度时,若为高优先级队列任务则后退次数初始化为高优先级退避次数,竞争窗口长度初始化为2;若为低优先级队列任务则后退次数初始化为低优先级退避次数,竞争窗口长度初始化为3,其中高优先级退避次数小于低优先级退避次数;
定位带退避周期,若当前是探索期,则传感器节点依据CSMA/CA算法进行信道接入;如果当前时段是利用期,节点采用ε‑greedy策略进行信道接入,以第二贪婪率ε选择从奖励值表中选择奖励值最大时对应的退避指数执行退避,即在(0,1)产生一个随机数n,当n大于设置的第二贪婪率ε的值时,从奖励值表中选择一个奖励值最大对应的退避指数作为当前退BE避指数,然后在(0,2 ‑1)范围内随机延迟一个退避周期;
奖励值表的更新包括:
在退避周期边界处执行CCA,并判断信道状态;
若信道为空,则竞争窗口长度自减1,若竞争窗口长度为0,则根据当前接入状态以及退避指数的值更新奖励值表,结束本次退避;若竞争窗口长度不为0,则继续执行CCA判断;
若信道不为空,则根据数据包优先级更新竞争窗口长度,并根据当前信道状态以及退避指数的值更新奖励值表;
更新数据包的退避指数,并判断退避指数是否在最大退避范围内,若在则令退避指数自加1后继续执行CCA判断;否则根据当前接入状态以及退避指数的值更新奖励值表;
其中,当竞争窗口长度为0时当前信道的接入状态为接入成功;当信道不为空时当前信道的接入状态为忙碌;当信道不为空且退避指数超出最大退避范围时信道状态为接入失败;
根据退避指数执行退避之后的奖励值表示为:
Qt(BE)=Qt‑1(BE)+α[rt‑Qt‑1(BE)];
其中,Qt(BE)表示当前t时刻根据退避指数BE执行退避后的奖励值,α为学习率;rt表示当前t时刻信道接入获得的奖励值,即:其中,当信道接入成功时奖励值为1,当信道接入失败时奖励值为‑1,当信道接入忙碌时奖励值为‑0.5。