欢迎来到利索能及~ 联系电话:18621327849
利索能及
我要发布
收藏
专利号: 2022102361583
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-10-29
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于联邦学习的设备选择与资源分配方法,其特征在于:在移动边缘计算网络场景中,为降低工业物联网场景下联邦学习的通信开销,利用边缘服务器和云服务器对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配,在每个边缘服务器中均部署有边缘控制器,所述边缘控制器上运行有相应的边缘智能体;在边缘服务器上计算损失值Fe(ωm)并传输到云服务器,由云服务器计算平均损耗Fc(wm)并下发到每个边缘服务器,作为边缘智能体的奖励;获得全局最佳联合决策的具体步骤如下:S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池 被实例化;

S2:经验抽样:采用基于经验回放技术的off‑policy技术,部署一个具有一定内存容量的经验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;

S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;

S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策;

对于边缘智能体m,具体更新步骤如下:

步骤1)通过最小化损失函数L(φm,v)来独立更新评价批评家网络的参数v表示优化因子:

其中,

表示为目标Q值,其中 和 分别表示所有智能体当前

和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(·)是返回动作熵值的函数;

Υ()是返回状态函数最小值函数; 和 分别是由评价网络和目标评价网络计算的状态‑动作Q值;在评价批评家网络和目标批评家网络中分别设置两个参数以缓解政策改进中的正偏置,损耗计算只使用这两个Q值的最小值,从而得到用于更新批评家网络参数的随机梯度:

其中,▽表示梯度计算;αm为最大熵目标权值; 表示智能体m实时策略;

步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:其中,策略函数通过FCNN网络重新参数化表示为 其中E()表示期望函数,其中加入一个高斯噪声εt,从而获得一个较低的方差估计,公式(4)重新表示为:其中εt服从高斯分布,由此计算出策略的梯度:

步骤3)采用FCNN来自动设定最大熵目标的权值αm,αm的梯度通过以下目标来计算:其中为 所有智能体的决策集合,H′为目标熵的值;

采用软更新方法,从评价批评家的参数φm,v中更新目标批评家网络的参数φ′m,v:φ′m,v=τφm,v+(1‑τ)φ′m,v        (8)其中τ∈(0,1)为更新因子。

2.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到本地环境状态信息,包括自身在可用时延限制下的剩余可用值和剩余能耗,边缘智能体所做的决策对其他边缘智能体是不敏感的。

3.根据权利要求2所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的本地环境状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为‑状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。

4.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:S21:每个边缘智能体分别从各自的环境中观察本地环境状态信息,包括自身在可用时延限制下的剩余可用值和剩余能耗;

S22:边缘智能体的行动者网络根据本地环境状态信息独立地用自己的策略生成决策;

S23:边缘智能体获得奖励,并且个体环境演化到下一个状态;

S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。

5.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;

每个边缘智能体的行动者‑批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。

6.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:每个边缘智能体的马尔科夫过程定义为一个多元组Μ=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θm来描述边缘智能体m的策略 最优策略表示为状态空间S表示为 其中 表示为设备在可用时延限制下的剩余可用值,即 表示为设备的剩余能耗,即

动作空间A表示为 am,t定义为一个二元量,ψm,n,t=1时,am,t才有意义;

当边缘智能体根据观察到的设备状态sm,t并采取动作am,t后,将会得到一个即时奖励,从而评估该动作的质量;为了使联邦学习评估损失最小化,多智能体学习算法的奖励函数定义为:其中,t表示边缘端聚合次数,tc表示云中心全局聚合次数,Fe(ωm)和Fc(ω)分别为模型在边缘和云端聚合后的损失函数,将这两种聚合情况下的损失函数作为每个智能体的奖励,将损失函数取负值,即将损失最小化问题转化为奖励最大化问题;

首先,在边缘服务器上计算的损失值Fm(ωm)被传输到云服务器;其次,由云服务器计算平均损耗Fe(ωm)=1/M∑m∈MFm(ωm);最后,将Fe(ωm)下发到每个边缘服务器,作为边缘智能体的奖励;U是一个惩罚因子,它用于惩罚那些不能在每轮联邦学习中约束条件下聚合任何模型参数的决策;在MDP中,每个边缘智能体的目标是通过最优的设备选择和资源分配策略使其自身的累积折扣奖励最大化。