1.一种边缘智能驱动的无线多跳网络信道资源优化方法,其特征在于,所述方法包括:将系统时间划分为多个连续的超帧,每个超帧包括控制周期和数据传输周期;
在控制周期内,所有无线节点工作在同一信道以获取或传输控制消息,并按照边缘服务器即集中式学习者反馈的模型参数配置出本地信道分配决策模型进行信道分配;
在数据传输周期内,需进行数据传输的无线节点根据基于接入编号的自适应休眠唤醒机制被唤醒,按照交错调度机制将数据在从K个非重叠信道中选择的数据信道上进行并行数据传输;
所述基于接入编号的自适应休眠唤醒机制包括按照无线节点的入网顺序及其父节点所对应的子节点总数确定出当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合;当前无线节点根据本地计数器、缓冲区队列数和信道接入微时隙编号集合,在特定的微时隙决定是否唤醒并进行数据传输;
当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合的确定方式表示为:Bo={bo+Rn*nf}
其中,Bo表示当前无线节点在当前数据传输周期可接入信道的所有微时隙编号集合;bo表示当前无线节点的父节点会为其每个子节点分配一个唯一的信道接入编号集合,bo∈[1,nf];nf表示当前无线节点的父节点的子节点总数,Rn是正整数,避免同一父节点的子节点选择相同的可接入微时隙编号,Rn=1,2,3,...;
所述当前无线节点根据本地计数器、缓冲区队列数和信道接入微时隙编号集合,在特定的微时隙决定是否唤醒并进行数据传输包括每个无线节点分布式地维护一个计数器,且该计数器在每个数据传输周期开始时均重置为0;在当前微时隙分配给该无线节点所在数据传输组中的任一节点时,该数据传输组中所有无线节点每过一个微时隙则将对应的计数器值加1;否则,无线节点冻结对应的计数器;
所述交错调度机制包括无线多跳网络中的无线节点根据其自身到汇聚节点的跳数的奇偶性分为两个不同的数据传输组,即跳数为奇数的节点分为一组G1;跳数为偶数的节点分为一组G2;当数据传输组G1的无线节点处于发送状态时,数据传输组G2的无线节点处于接收状态,当数据传输组G2的无线节点处于发送状态时,数据传输组G1的无线节点处于接收状态;
其中,每个无线节点异步地在数据传输周期与环境进行分布式交互,获取无线多跳网络的环境反馈,并将环境反馈和状态动作信息即经验信息传输给集中式学习者;所述集中式学习者利用所述经验信息进行集中式模型训练,并更新信道分配决策模型,定期向无线节点反馈更新后的模型参数;
所述集中式学习者利用所述经验信息进行集中式训练,并更新信道分配决策模型,定期向无线节点反馈更新后的模型参数包括在所述集中式学习者中采用深度确定性策略梯度的深度强化学习模型,包括Actor main网络、Actor Target网络、Critic main网络和Critic target网络,用于产生信道分配决策;其中,无线节点上只需部署Actor main网络作为本地决策模式,用于信道选择;该深度强化模型的奖励函数值是指节点使用所选择的信道进行数据传输所获取的网络性能评估参数的映射函数;该奖励值和节点的状态动作信息将反馈给集中式学习者来优化深度强化学习模型,完成对信道分配决策模型集中式训练;
1)汇聚网络中无线节点采集的经验,并存放到集中式学习者的经验回放池中,更新经验池;
2)集中式学习者从经验回放池中采样m(mini‑batch)个样本,ej=
1,2,...,m;
3)计算Target Q值:
4)计算均方误差: 基于深度网络的梯度反向传播更
新Critic main网络参数ω;
5)计算 通过神经网络的梯度反向传播来更新Actor main策
略网络的参数;
6)每运行C轮,更新Actor Target策略网络和Critic Target Q网络参数:θ′←αθ+(1‑α)θ′
ω′←αω+(1‑α)ω′
网络中的无线节点定期从集中式学习者处获取最新的网络参数θ′,并与环境进行交互和采集经验。
2.根据权利要求1所述的一种边缘智能驱动的无线多跳网络信道资源优化方法,其特征在于,所述超帧还包括信标帧,所述超帧随网络环境由集中式控制器进行自适应优化,并通过所述信标帧将优化后的参数发送给所有的无线节点。