利索能及
我要发布
收藏
专利号: 2024102084838
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2026-05-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.基于多智能体强化学习的双无人机边缘计算系统安全卸载方法,其特征在于,包括以下步骤:步骤S1:构造考虑存在地面多窃听情况下的双无人机辅助边缘计算模型;所述双无人机辅助边缘计算模型包括 个地面用户 通过时分模式向服务器无人机 卸载数据,地面 个潜在窃听用户 不断尝试窃取用户卸载的信息,一个友好无人机 辅助 向 发送干扰信号以抑制窃听;其中无人机 作为空中边缘计算服务器,为地面用户设备提供边缘计算服务,无人机 作为空中干扰机向地面多窃听发射干扰信号;

步骤S2:基于步骤S1提供的系统模型,以确保系统用户卸载数据的安全性为前提,计算系统用户的平均计算成本,将计算成本的倒数作为用户需求满意度,考虑用户需求满意度时综合考虑了用户卸载数据的安全性、计算时延和能量消耗,将最大化用户需求满意度作为优化目标构建优化问题;

所述用户需求满意度为:

表示归一化的能耗, 表示归一化的时延, 设置为1, 表示能耗控制权重;

所述优化问题为

其中 分别表示对用户发射功率、用户计算频率和安全卸载门限的限制; 为对无人机计算能力的约束; 为对无人机的能耗限制; 分别表示对无人机飞行速度、飞行高度和避免碰撞的约束条件,其中 为用户需求满意度, 为用户发射功率, 为用户计算频率; 为用户瞬时安全可达速率, 为用户安全卸载门限;

为第 时隙用户卸载的数据量, 为服务器无人机的最大计算频率, 为服务器无人机计算1比特数据所需的CPU计算频率, 为时隙长度, 和 分别表示服务器无人机 和干扰无人机 的剩余能量, 和 分别为 和 的飞行速度, 和分别表示 和 的最大飞行速度; 和 分别为 和 的飞行高度, 为最低飞行高度, 为最大飞行高度; 和 分别为 和 的位置, 为防止双无人机碰撞的最小安全距离;

步骤S3:将优化问题建模为一个马尔科夫决策过程,包括对系统状态空间、动作空间、奖励函数的设定;

步骤S4:使用深度强化学习中的MADDPG算法联合优化双无人机的3D轨迹和动态资源分配策略以降低系统用户的计算成本。

2.根据权利要求1所述基于多智能体强化学习的双无人机边缘计算系统安全卸载方法,其特征在于:步骤S3所述将优化问题建模为一个马尔科夫决策过程包括:服务器无人机 的状态集为 ,友好无人机 的状态集为

,系统的状态集为:

, 分别表示 和 的坐标位置, , 分别表示第 时隙 和 的剩余能量, 表示系统的瞬时安全速率, 表示第 时隙 未处理数据, 表示与 之间的信道增益;

服务器无人机 的动作集为 ,友好无人机 的动作

集为 ,则系统的动作集为:

和 分别表示第 时隙 和 的飞行速度,  和 分别表示第 时隙和 的极角, 和 分别表示 和 的水平角, 为 在第 时隙计算频率,表示第 时隙用户的发射功率;

服务器无人机 的奖励函数为:

其中, 为优化目标, 为用户卸载数据的奖励, 为 违反约束条件所受到的惩罚;其中, 表示为:

其中, 为调整 奖励的正整数, 表示系统的瞬时安全速率, 表示时隙长度;

定义为:

其中, 分别代表对无人机 碰撞约束、 计算能力约束、 剩余能量约束的惩罚, 和 为二进制系数, 用于判断当所有用户数据都处理完后的能量剩余相关的稀疏奖励,定义为:

其中, 是用于调整 的正常数, 表示第 时隙 的剩余能量;友好无人机的奖励函数为:其中, 为调整总窃听速率的正整数, 表示 与 之间的瞬时可达速率,为 违反约束条件受到的惩罚,表示为:其中, 分别为 的碰撞惩罚和能量剩余惩罚, 定义为:其中, 是用于调整 的正常数;

系统整体奖励 可定义

3.根据权利要求1所述基于多智能体强化学习的双无人机边缘计算系统安全卸载方法,其特征在于:步骤S4中所述MADDPG算法包括以下步骤:(1)初始化:对每个智能体,初始化其策略网络、动作网络、目标网络和经验回放缓冲区;

(2)经验采样:每个智能体按照其策略网络输出的动作与环境进行交互,采集经验并存储到经验回放缓冲区中;

(3)训练:每个智能体从经验回放缓冲区中随机采样一批经验,计算出其动作值函数的梯度并更新其策略网络和动作网络;

(4)目标网络更新:每隔一定的时间步长,对每个智能体的目标网络进行软更新,即让目标网络的参数向着动作网络的参数慢慢靠近;

(5)共享经验:每个智能体在进行经验采样时,共享其它智能体的经验,从而加速学习过程;

(6)协调策略:在每次训练中,每个智能体的策略网络可以考虑其它智能体的动作,从而实现多智能体之间的协同决策。

4.根据权利要求3所述基于多智能体强化学习的双无人机边缘计算系统安全卸载方法,其特征在于:所述MADDPG算法中定义每个智能体的目标函数为:其中, 为智能体 的策略 的性能度量,为折扣因子,为时间步长, 为在时间步 时,智能体 获得的即时奖励, 为对累积奖励求期望;

对每个智能体的策略梯度可由下式计算:

其中, 是智能体 的策略参数 的梯度, 是对经验池 中采样的状态和动作 进行期望操作, 是经验池,存储了智能体在与环境交互过程中的状态值和动作,为智能体 的策略函数 相对于其参数 的梯度, 为智能体 的动作价值函数,表示在给定状态 和动作 下,根据当前策略 所得到的预期累积回报, 表示对动作 的梯度, 是在策略 下根据状态 选择的动作,表示智能体根据自己的策略所采取的行动。

5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利1到4任一项所述的基于多智能体强化学习的双无人机边缘计算系统安全卸载方法的步骤。

6.一种通信系统,包括若干用户,两个无人机,其特征在于:其中一个无人机作为空中边缘计算服务器,为地面用户设备提供边缘计算服务,另一个无人机作为空中干扰机向地面多窃听发射干扰信号,所述无人机具有处理器和存储器,所述处理器用于执行存储器中存储的可执行指令时,实现权利要求1至4任一项所述的方法。