1.一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,包括以下步骤:S1:构建深度强化学习模型,得到神经网络,并初始化神经网络参数;
S2:获取智能设备产生的计算任务信息并整合成系统状态 ;
其中,t表示决策时隙;
S3:输入系统状态 对神经网络进行训练,得到系统动作 ;
S4:根据系统动作 计算得到相应的总开销 ;
S5:根据总开销 训练神经网络,得到使总开销最小化的系统动作;
S6:完成神经网络的训练,按照得到的使总开销最小化的系统动作进行资源分配;
系统动作 包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策;
智能设备的二进制卸载决策采用二进制卸载变量 表示;
其中, 表示选择在本地执行计算任务, 则表示选择将计算任务整体卸载到无人机上进行处理;
神经网络包括动作网络和评论网络;
在步骤S4中,
设第 个智能设备本地计算的执行时间为:第 个智能设备卸载计算的执行时间为:第 个智能设备本地计算的能量消耗为:第 个智能设备卸载计算的能量消耗为:第 个智能设备从小基站获取的能量为:则第 个智能设备本地计算的成本为:
第 个智能设备卸载计算的成本为:
第 个智能设备从小基站获取的能量成本为:因此,总开销为:
其中, 是小基站分配给智能设备 的计算资源, 表示智能设备的计算任务数据量大小、表示执行计算任务所需要的计算资源数,智能设备 的数据上传速率为 ,B为无线信道带宽, 是智能设备 的传输功率, 是分配给智能设备 的无线信道增益,是噪声功率;智能设备 上传数据到无人机的上传速率 , 是智能设备与无人机之间的信道增益, 是无人机分配给智能设备的计算资源, 是小基站的能耗密度,是向无人机购买的计算资源的成本, 是单位周期价格, 是无人机的计算资源总数;
表示能量收集的效率, , 表示的是小基站的传输功率, 是小基站为智能设备充电服务的时间, 表示小基站与某一个智能设备之间的信道增益, 为单位能耗价格;
S5.1:根据总开销 得到系统动作 在决策时隙t 的奖励值 ,同时获得下一个系统状态 并将 存放在深度强化学习模型的记忆内存中;
S5.2:计算全部时隙下获得的最大总奖励即最小化总开销;
其中,对于任何给定的 ,通过把策略 π 定义为一个映射 π 得到 ;对于任何 ,通过定义一个映射 得到奖励值R;
S5.3:将系统状态空间定义为:
将系统动作空间定义为:
其中, 是智能设备产生的简要计算任务信息, 是无人机的剩余资计算资源;
S5.4:从记忆内存中选择样本,向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数 和评论网络中的参数 ,得到使总开销最小化的系统动作;
总开销最小化需满足以下约束条件:
上面约束中,C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理;C2表示无论是小基站本地计算的延迟还是无人机处理的 延迟都要满足设备的最大容忍延迟时间, 表示任务的最大截止时间;C3表示 单个无人机和小基站计算资源有限的情况下,无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制, 表示小基站的计算资源总数;C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制;C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量, 表示智能设备电池的最大容量, 是每个智能设备的剩余电量。
2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。
3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤 S5.4 中,将从记忆内存中选择优化动作网络的样本表示为:;
将从记忆内存中选择优化评论网络的样本表示为:;
其中, 代表样本索引。
4.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法,其特征在于,在步骤 S5.4 中,动作网络的损失函数为:
评论网络的损失函数为:
其中, 表示动作网络输入 所产生的输出,γ是折扣因子。