1.一种基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,包括:构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。
2.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,构建包括状态、动作、奖励和策略的MADRL框架,具体包括:状态:在时隙t,SBS b的本地状态 定义为 系统的状态定义为其中, 是SBS b的本地缓存状态,pb是在SBSb覆盖范围预测的流行的内容;
动作:在时隙t,SBS b的动作定义为 系统的动作定义为其中,Fp=|pb|代表预测的流行的内容的数量;
奖励:在时隙t,将SBSb的奖励定义为
系统的奖励为
其中,α,β,χ和η是预定义的常数, 和 是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据;
*
策略:用π={π1,...,πb,...,πB}表示缓存策略,来最大化预期的长期折扣回报π=argminJ(π),其中, γ∈(0,1)是折扣因子。
3.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤:SBS在第一轮迭代训练中初始化自身的全局模型ωr,在每一轮迭代训练中,SBS更新全局模型,并将全局模型ωr传递给其覆盖范围下所有的UEs;
SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型,并通过训练迭代更新本地模型;
本地模型更新完成,UEi将更新后的本地模型 上传到本地SBS;
在SBS覆盖范围内的所有UEs上传其更新后的本地模型 后,所述SBS通过计算所有接收到的更新后的本地模型 的加权平均和来生成新的全局模型ωr+1,其计算公式为:其中,η是固定的学习率;
通过多个回合迭代训练,得到最终的全局模型,对抗性编码器模型完成训练。
4.根据权利要求3所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。
5.根据权利要求4所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括:首先定义权重距离公式,公式如下:
其中,ωa和ωb分别表示两种模型的权重,dis(ωa,ωb)越大,两种模型之间的差异就越大;
i
然后分别计算每层本地模型 和全局模型ωr的差异并且引入α作为弹性参数,计算公式如下:其中, 是本地模型 的第l层的权重,ωr是全局模型ωr的第l层的权重,|L|表示深i度学习网络的层数,用于平均每层的权重距离函数,α越大,全局模型和本地模型两种模型之间的差距越大;
最后根据弹性更新公式 对本地模型进行更新训练。
6.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵具体包括:SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入,输出重构的评分矩阵计算UE中每个用户中评分不为零的内容数,并将设定数量的具有最大非零内容数的用户标记为活跃的用户;
UE将重构的评分矩阵 和其个人信息矩阵Hi结合为组合矩阵Hi,计算每个活跃的用户和其他用户之间的相似性;
对于每个活跃的用户a,UE选择具有K个最大相似性的用户作为用户a的K个相邻用户,提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵
7.根据权利要求6所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,计算每个活跃的用户和其他用户之间的相似性的方法为:根据余弦相似性计算每个活跃的用户和其他用户之间的相似性,其计算公式为:simi(a,b)=cos(Hi(a,:),
其中,Hi(a,:)和Hi(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量,||Hi(a,:)||2和||Hi(b,:)||2分别是Hi(a,:)和Hi(b,:)的2‑norm。
8.一种基于多智能体强化学习和联邦学习的边缘缓存系统,其特征在于,包括:流行内容预测模块,用于构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;
其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:利用联邦深度学习对对抗性编码器模型进行迭代训练;
SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;
统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;
在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;
边缘缓存模块,用于基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。
9.一种网络装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。