利索能及
我要发布
收藏
专利号: 2019112524104
申请人: 长江师范学院
专利类型:发明专利
专利状态:已下证
更新日期:2025-06-12
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,包括如下步骤:S1、获取无人机集群当前状态信息;

S2、获取无人机集群历史信息,所述历史信息包括历史状态信息及历史决策信息;

S3、采用基于Q学习的改进DQN深度强化学习方法,利用无人机集群历史信息对每个智能体的神经网络进行训练更新,得到无人机集群各智能体的信道选择及功率选择决策,训练过程中采用短时经验回放机制训练神经网络,每个神经网络的优化目标为最大化对应智能体的能量效率值;

S4、基于所述无人机集群中链路的信道及功率决策信息控制无人机集群进行数据传输。

2.如权利要求1所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,步骤S3中,链路合集为L,对任一神经网络,智能体集合为Lm,非智能体的集合为Ls,Ls=L-Lm,步骤S3包括:S301、初始化回放空间,设置回放空间大小及回放空间清空周期;

S302、初始化智能体的DQN网络参数,智能体的目标Q值网络参数,设置智能体的学习速率和折扣系数;

S303、获取无人机集群中的无人机坐标集合、离散功率集及正交信道集合;

S304、设t=1;

S305、利用目标无人机群在t时隙对应的状态信息,基于ε-greedy算法和DQN网络得到智能体决策并执行,得到回报值以及执行后所有链路可能达到的状态信息,将与t对应的状态信息、回报值以及执行后所有链路可能达到的状态信息作为样本存入回放空间;

S306、从回放空间随机采样训练数据集,训练数据集样本数为k;

S307、从训练数据集中采集一个样本,设样本编号interation=1;

S308、将样本对应的执行后所有链路可能达到的状态信息输入至神经网络,得到新的Q值,取最大的Q值对应的决策作为智能体t时隙的决策;

S309、利用随机梯度下降法根据损失函数 更新DQN网络参数集

式中,Q()为Q值函数, 表示非智能体t时刻的状态信息, 表示表示智能体t时刻的状态信息, 表示第i个智能体在t时隙的决策, 表示第i个智能体在t时隙的网络参数,γ表示折扣系数, 表示 对应的决策下可能到达的所有状态的集合, 表示 对应的决策下可能到达的所有状态的集合, 表示第i个智能体在t时刻采用不同于的 其他决策,ΔI表示参数更新周期;

S310、当t%ΔI==0时, 表示第i个智能体在t时隙的Q值网络

参数;

S311、当样本编号等于k且t=T时,结束;当样本编号等于k且t<T时,使t的值加1并返回执行S305;当样本编号小于k时,使样本编号的值加1并返回执行步骤S308。

3.如权利要求2所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,式中, 表示第i个智能体在t时隙的决策的回报值, 表示第i个智能体在t时隙的决策,Bi表示第i个智能体在t时隙的信道带宽, 表示第i个智能体在t时隙的接收节点通信信噪比, 表示 对应的通信阈值,接收节点通信信噪比小于通信阈值这表示不能通信,表示第i个智能体在t时隙的发送节点传输功率, 表示第i个智能体在t时隙的链路增益,表示第i个智能体在t时隙的接收节点的干扰强度,σ表示干扰噪音, 表示t时隙第j条链路对第i个智能体的增益,当第j条链路与第i个智能体使用同一信道, di表示第i个智能体的收发节点之间的距离, dij表示第j条链路的接收节点与第i个智能体的发送节点之间的距离,δ表示路径衰减因子, 表示第j条链路的接收节点与第i个智能体的发送节点之间的在t时隙的接收功率。

4.如权利要求2所述的面向能量效率的无人机群多智能体深度强化学习优化方法,其特征在于,任意一条链路任意时隙的状态信息包括了对应的信道向量、发送节点传输功率、接收节点坐标向量及发送节点坐标向量。