买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的无人机辅助资源分配方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的无人机辅助资源分配方法

￥18000

专利号： 2020106443954

申请人：广东工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，包括以下步骤：S1：构建深度强化学习模型，得到神经网络，并初始化神经网络参数；

S2：获取智能设备产生的计算任务信息并整合成系统状态；

其中，t表示决策时隙；

S3：输入系统状态对神经网络进行训练，得到系统动作；

S4：根据系统动作计算得到相应的总开销；

S5：根据总开销训练神经网络，得到使总开销最小化的系统动作；

S6：完成神经网络的训练，按照得到的使总开销最小化的系统动作进行资源分配；

系统动作包括智能设备中的二进制卸载决策、小基站中充电资源和计算资源的分配决策、无人机中计算资源的分配决策；

智能设备的二进制卸载决策采用二进制卸载变量表示；

其中，表示选择在本地执行计算任务，则表示选择将计算任务整体卸载到无人机上进行处理；

神经网络包括动作网络和评论网络；

在步骤S4中，

设第个智能设备本地计算的执行时间为：第个智能设备卸载计算的执行时间为：第个智能设备本地计算的能量消耗为：第个智能设备卸载计算的能量消耗为：第个智能设备从小基站获取的能量为：则第个智能设备本地计算的成本为：

第个智能设备卸载计算的成本为：

第个智能设备从小基站获取的能量成本为：因此，总开销为：

其中，是小基站分配给智能设备的计算资源，表示智能设备的计算任务数据量大小、表示执行计算任务所需要的计算资源数，智能设备的数据上传速率为，B为无线信道带宽，是智能设备的传输功率，是分配给智能设备的无线信道增益，是噪声功率；智能设备上传数据到无人机的上传速率，是智能设备与无人机之间的信道增益，是无人机分配给智能设备的计算资源，是小基站的能耗密度，是向无人机购买的计算资源的成本，是单位周期价格，是无人机的计算资源总数；

表示能量收集的效率，，表示的是小基站的传输功率，是小基站为智能设备充电服务的时间，表示小基站与某一个智能设备之间的信道增益，为单位能耗价格；

S5.1：根据总开销得到系统动作在决策时隙t 的奖励值，同时获得下一个系统状态并将存放在深度强化学习模型的记忆内存中；

S5.2：计算全部时隙下获得的最大总奖励即最小化总开销；

其中，对于任何给定的，通过把策略 π 定义为一个映射 π 得到；对于任何，通过定义一个映射得到奖励值R；

S5.3：将系统状态空间定义为：

将系统动作空间定义为：

其中，是智能设备产生的简要计算任务信息，是无人机的剩余资计算资源；

S5.4：从记忆内存中选择样本，向损失函数最小化的方向优化动作网络和评论网络中的损失函数并更新动作网络的参数和评论网络中的参数，得到使总开销最小化的系统动作；

总开销最小化需满足以下约束条件：

上面约束中，C1表示每个智能设备只能选择在小基站进行本地计算或者卸载到无人机进行处理；C2表示无论是小基站本地计算的延迟还是无人机处理的延迟都要满足设备的最大容忍延迟时间，表示任务的最大截止时间；C3表示单个无人机和小基站计算资源有限的情况下，无人机和小基站给智能设备提供的资源综合不会超过它们自身的计算资源限制，表示小基站的计算资源总数；C4表示无人机分配给单个智能设备的计算资源不超过无人机自身的资源限制；C5表示小基站给单个智能设备充电的能量不会超过智能设备电池最大容量，表示智能设备电池的最大容量，是每个智能设备的剩余电量。

2.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，初始化的神经网络参数包括权重、偏置、学习率、神经网络的层数。

3.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，在步骤 S5.4 中，将从记忆内存中选择优化动作网络的样本表示为：；

将从记忆内存中选择优化评论网络的样本表示为：；

其中，代表样本索引。

4.根据权利要求1所述的一种基于深度强化学习的无人机辅助资源分配方法，其特征在于，在步骤 S5.4 中，动作网络的损失函数为：

评论网络的损失函数为：

其中，表示动作网络输入所产生的输出，γ是折扣因子。