买专利、卖专利、专利购买、专利交易、专利出售、高企申报-边缘计算中基于强化学习的无人机任务卸载方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

边缘计算中基于强化学习的无人机任务卸载方法及系统

￥18500

专利号： 2020106750187

申请人：中南大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，包括：步骤1，根据无人机到边缘节点的距离、边缘节点处理能力、切换节点对任务完成时间和能耗的影响建立基于边缘计算的无人机目标追踪的系统模型；

步骤2，通过研究无人机目标追踪过程中的任务分配决策问题，将无人机目标追踪过程中的任务分配决策问题建模成马尔可夫决策过程；

步骤3，基于强化学习中的Q学习设计求解算法，对无人机目标追踪过程中的任务分配决策问题进行求解，得出最佳的边缘节点选择方案和发射功率调整方案。

2.根据权利要求1所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤1具体包括：无人机在目标追踪过程中，将拍摄的视频任务卸载到地面边缘节点进行处理，研究无人机在时间T内的工作情况，假设无人机的飞行高度为H(m)，无人机的飞行轨迹投影到地面

2×1

上表示为q(t)∈R ，0≤t≤T，时间T被离散成M个时隙，即T＝Mδt，其中，δt表示每个时隙的长度，无人机在一个时隙中位置认为是不变的，无人机的轨迹近似离散为一个集合Q＝{qm,

1≤m≤M}，其中，qm表示时隙m中无人机的位置，无人机在M个时隙产生的M个任务表示S＝{s1,s2,…,sM}，其中，sm表示第M个任务的数据量大小，单位为bits。

3.根据权利要求1所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤1还包括：假定在城市的一片区域里有k个边缘节点，用集合N＝{n1,n2,n3,…,nk}表示，ni表示第i个边缘节点，边缘节点ni的位置表示为wi∈R2×1，考虑到每个边缘节点的计算能力不同和无人机实时移动，无人机到边缘节点的通信距离为变化的，无人机到每个边缘节点的通信距离不同，无人机卸载到每个边缘节点的任务完成时间和产生的能耗也不同，假设在时隙m，将边缘节点ni选择为计算节点，如下所示：其中，dm,i表示无人机与边缘节点ni之间的距离，qm表示时隙m中无人机的位置，wi表示边缘节点ni的位置，wi∈R2×1，H表示表示无人机的飞行高度；

准静态块衰落信道遵循自由空间路径损耗模型，无人机和边缘节点之间的信道，如下所示：其中，表示无人机和边缘节点之间的信道，β0表示参考距离d0＝1m处的信道功率增益，qm表示时隙m中无人机的位置，wi表示边缘节点ni的位置，H表示表示无人机的飞行高度。

4.根据权利要求3所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤1还包括：假设发射功率在一个有限的状态空间Pn中调整选择，系统的通信速率R与发射功率和选择边缘节点有关，给定发射功率pm,i和无人机到边缘节点的距离dm,i，选择不同的边缘节点，无人机到边缘节点的距离不同，系统的通信速率如下所示：其中，Rm,i(pm,i,dm,i)表示系统的通信速率，单位为bps，pm,i表示在时隙m中无人机分配给节点ni的发射功率，B表示信道带宽，σ2表示高斯白噪声功率，表示距离d0＝1m时的信噪比，表示无人机和边缘节点之间的信道，β0表示参考距离d0＝1m处的信道功率增益，qm表示时隙m中无人机的位置，wi表示边缘节点ni的位置，H表示表示无人机的飞行高度。

5.根据权利要求4所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤1还包括：在无人机进行目标追踪的过程中，无人机将视频任务卸载到边缘节点进行协同处理，无人机进行目标追踪过程的时间开销包括传输时间和计算时间，任务传输时间表示为：其中，Rm,i(pm,i,dm,i)表示系统的通信速率，pm,i表示在时隙m中无人机分配给节点ni的发射功率，dm,i表示无人机与边缘节点ni之间的距离，sm表示第M个任务的数据量大小，单位为bits；将任务sm卸载到边缘节点ni的计算时间为：其中，sm表示第M个任务的数据量大小，w表示处理单位视频任务量需要的CPU周期，单位为周期数/比特，fi表示边缘节点ni的CPU时钟频率，单位为周期数/秒；

假设结果反馈时延是一个固定的很小的值，可以忽略不计，将任务sm卸载到边缘节点ni处理的总执行时间为数据传输时间和数据计算时间之和，如下所示：其中，表示将任务sm卸载到边缘节点ni处理的总执行时间，表示数据传输时间，表示数据计算时间；

将从无人机卸载计算任务的能耗开销，如下所示：

其中，pm,i表示在时隙m中无人机分配给节点ni的发射功率，pidle表示空闲状态下的功率，表示执行计算任务的能量开销，和分别表示数据传输时间和数据计算时间。

6.根据权利要求5所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤1还包括：当无人机在时隙m连接的边缘节点与在上一个时隙m-1连接的边缘节点不同时，会带来额外的切换开销，包括能耗开销和时间开销，假设切换过程中的能耗开销，如下所示：其中，1{Ω}表示指示函数，表示每个时隙的能耗开销，表示一次节点切换带来的能耗开销；

假设切换过程中的一次切换的时间开销，如下所示：

其中，1{Ω}表示指示函数，表示每个时隙的时间开销，表示一次节点切换带来的能耗开销；如果满足条件Ω，值为1，不满足条件Ω，值为0，j＝max{l:nl∈N,l∈[1,k],l＜i}；

结合切换过程中的能耗开销和一次切换的时间开销，得出每个时隙m的总能量开销如下所示：其中，表示每个时隙m的总能量开销，表示执行计算任务的能量开销，表示切换节点带来的能量开销；

得出每个时隙m的总时间开销如下所示：

其中，表示每个时隙m的总时间开销，表示执行计算任务的时间开销，表示切换节点带来的时间开销；

将每个时隙m的任务执行开销定义为能量开销和时间开销的权重和，如下所示：其中，表示每个时隙m的任务执行开销，表示每个时隙m的总能量开销，

表示每个时隙m的总时间开销，α表示传输能量消耗的相对权重，α≥0，β表示总延迟的相对权重，β≥0；

假设在时隙m选择边缘节点ni作为服务节点，决策变量xmi＝1，时隙m不选择边缘节点ni作为服务节点，决策变量xmi＝0，为联合优化无人机的传输功率和边缘节点的选择机制，最小化无人机能量开销与时间开销的权衡优化问题如下所示：其中，xmi表示决策变量，是时隙m的总开销；

其中，xmi表示决策变量。

7.根据权利要求6所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤2具体包括：无人机追踪过程中不断产生的视频任务根据上一个任务所在执行节点、无人机位置和任务量大小被卸载到边缘节点执行，系统的状态由上一个任务所在执行节点、无人机位置和任务量大小构成，将无人机在每个时隙m的状态表示为xm＝(Nm-1,Am)∈X＝{1,2,…,k}×{qm,sm}，其中，动作空间由选择的执行任务的节点和无人机发射功率的大小构成，ym＝(Nm,pm)∈Y＝{1,2,…,k}×{Pn},其中，Pn表示发射功率可能取值的集合，在每个时隙m开始时对状态xm的观测，无人机遵从静态控制决策从动作空间中选择一个动作，其中，表示卸载节点选择机制，表示发射功率调整策略，系统在一个状态(上一个任务所在执行节点、无人机位置和任务量大小)选择相应的动作(计算节点和发射功率)之后，按照动作转移的概率为1，系统的状态转移概率为1，给定一个决策则{xm:m∈M}是一个有以下状态转移概率的可控的马尔科夫链，如下所示：

8.根据权利要求7所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤2还包括：一个决策规则描述了一个特定时隙的状态进行动作选择的过程，如下所示：

其中，表示在给定一个初始状态x1和策略的情况下无人机的长期预期总开销，C(xm,ym)表示每个时隙的总开销，x1表示初始状态，表示策略；x＝(N,A)，存在一个静态策略对所有策略来说是最优的；

设计一个最佳的控制策略最佳的控制策略中建议采取的动作使得

在当前阶段以及后续阶段产生的开销最小，如下所示：

其中，表示最佳的控制策略，将作为最佳的状态-值函数，

9.根据权利要求8所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤3具体包括：使用强化学习解决无人机目标追踪过程中的任务分配决策问题，将回报函数与需要优化的目标函数联系起来，根据优化目标为最小化总开销和强化学习的目标为最大化回报，将回报函数与原始的目标函数设置为负相关，如下所示：R(x,y)＝-C(x,y) (16)

其中，R(x,y)表示瞬时回报，x表示状态，y表示动作。

10.根据权利要求9所述的边缘计算中基于强化学习的无人机任务卸载方法及系统，其特征在于，所述步骤3还包括：为限制动作空间的大小，在学习过程之前对于每个边缘节点，根据无人机到边缘节点的距离判断无人机是否在该边缘节点的服务范围内，如果不满足条件，则在第一次选到这个边缘节点时，将与该边缘节点有关的动作的Q值设置为一个很小的值，采用Q-learning强化学习方法，每个状态-动作都有一个值Q(s,a)，对于寻找最佳动作过程中的每一步，智能体将每个状态-动作的值Q(s,a)进行计算并存储在Q表中，将每个状态-动作的值Q(s,a)视为长期回报的期望，Q(s,a)的更新公式如下所示：Q(s,a)＝r(s,a)+γ*maxQ(s',a') (17)

其中s,a表示当前状态和动作，s',a'表示下一个时隙的状态和动作，γ表示学习率，0≤γ≤1；当γ趋于0，agent考虑当前的瞬时回报，当γ趋于1，agent关注未来的回报，对于寻找最佳动作过程中的每一步，迭代每个状态-动作的值Q(s,a)。