利索能及
我要发布
收藏
专利号: 2019100749446
申请人: 电子科技大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于深度强化学习的无人机网络多用户接入控制方法,该方法用于以无人机作为移动基站为地面用户UE提供服务的系统,其特征在于,所述控制方法为:构建分布决策集中训练的深度强化学习框架,即为每个UE配置一个结构相同的神经网络,每个UE根据自身的神经网络独立的获得接入无人机基站的策略;同时设置一个具有相同神经网络的中央节点,用于从各个UE处收集经验信息并训练神经网络参数,在每个训练阶段完成后中央节点把训练好的参数传递给每一个UE。

2.根据权利要求1所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述中央节点从各个UE处收集经验信息的具体方法为:UE需要根据自身状态选择合适的动作,执行后获得相应的奖励,UE的吞吐量主要与基站接入用户数和接收信号强度有关,所以UE的状态表示为:si(t)={ui,0(t-1),…,ui,K-1(t-1),

ωi(t-1)}

其中,ui,j为定义的接入指示变量,是一个二元指示变量,即为“1”表示表示接入该基站,为“0”表示没有选择接入该基站;状态包含了该用户上一个时刻的接入指示变量ui,j(t-

1),上一个时刻和此时刻的接收信号强度 和 各个基站在上一个时刻的接入用户数N0(t-1),ωi(t-1)表示该UE在上一个时刻的吞吐量;

UE在做出自身的接入选择之后,向选中的无人机基站发送接入请求,无人机接收请求后,对UE提供传输服务;

所有UE接入决策做完后,环境信息会进行更新,无人机基站统计自身的接入用户数将新的网络信息发送给各个UE,构成UE新的状态;所有UE将原来的转态,做出的接入选择,吞吐量情况以及新的状态传递给中央节点,中央节点对每个UE的奖励函数进行计算,将经验信息进行完善:其中,ωi(t)表示该UE在当前时刻的吞吐量, 表示该UE在进行

接入选择之后对其他相关用户吞吐量的变化,定义为对其他用户性能的影响,ai(t)和ai(t-

1)表示用户在t时刻和t-1时刻分别所采取的接入动作,C表示对于产生切换的惩罚,η为控制系数。

3.根据权利要求2所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述中央节点训练神经网络参数的具体方法为:中央节点收集了全部UE的经验信息之后,将所有信息存储到本地一个队列形式的存储器中,将全部UE的经验信息进行汇总,然后利用随机梯度下降的方法进行随机采样,所得样本作为本次训练的训练样本,对神经网络参数进行训练。

4.根据权利要求3所述的基于深度强化学习的无人机网络多用户接入控制方法,其特征在于,所述神经网络由LSTM网络和全连接网络构成:其中,LSTM网络负责提取输入参数中的时间连续性特征,在LSTM网络中需要同时输入M个时刻的数据;全连接网络负责对LSTM网络提取到的特征进行处理,得到对应的接入策略。