利索能及
我要发布
收藏
专利号: 2023101348853
申请人: 江南大学
专利类型:发明专利
专利状态:授权未缴费
更新日期:2025-03-19
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,包括:构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;

其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:利用联邦深度学习对对抗性编码器模型进行迭代训练;

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;

统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;

在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;

基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。

2.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,构建包括状态、动作、奖励和策略的MADRL框架,具体包括:状态:在时隙t,SBS  b的本地状态 定义为 系统的状态定义为其中, 是SBS b的本地缓存状态,pb是在SBSb覆盖范围预测的流行的内容;

动作:在时隙t,SBS b的动作定义为 系统的动作定义为其中,Fp=|pb|代表预测的流行的内容的数量;

奖励:在时隙t,将SBSb的奖励定义为

系统的奖励为

其中,α,β,χ和η是预定义的常数, 和 是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据;

*

策略:用π={π1,...,πb,...,πB}表示缓存策略,来最大化预期的长期折扣回报π=argminJ(π),其中, γ∈(0,1)是折扣因子。

3.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤:SBS在第一轮迭代训练中初始化自身的全局模型ωr,在每一轮迭代训练中,SBS更新全局模型,并将全局模型ωr传递给其覆盖范围下所有的UEs;

SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型,并通过训练迭代更新本地模型;

本地模型更新完成,UEi将更新后的本地模型 上传到本地SBS;

在SBS覆盖范围内的所有UEs上传其更新后的本地模型 后,所述SBS通过计算所有接收到的更新后的本地模型 的加权平均和来生成新的全局模型ωr+1,其计算公式为:其中,η是固定的学习率;

通过多个回合迭代训练,得到最终的全局模型,对抗性编码器模型完成训练。

4.根据权利要求3所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。

5.根据权利要求4所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,在本地模型更新过程中,使用弹性的本地更新算法为每个UE设置特定的权重,基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括:首先定义权重距离公式,公式如下:

其中,ωa和ωb分别表示两种模型的权重,dis(ωa,ωb)越大,两种模型之间的差异就越大;

i

然后分别计算每层本地模型 和全局模型ωr的差异并且引入α作为弹性参数,计算公式如下:其中, 是本地模型 的第l层的权重,ωr是全局模型ωr的第l层的权重,|L|表示深i度学习网络的层数,用于平均每层的权重距离函数,α越大,全局模型和本地模型两种模型之间的差距越大;

最后根据弹性更新公式 对本地模型进行更新训练。

6.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵具体包括:SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入,输出重构的评分矩阵计算UE中每个用户中评分不为零的内容数,并将设定数量的具有最大非零内容数的用户标记为活跃的用户;

UE将重构的评分矩阵 和其个人信息矩阵Hi结合为组合矩阵Hi,计算每个活跃的用户和其他用户之间的相似性;

对于每个活跃的用户a,UE选择具有K个最大相似性的用户作为用户a的K个相邻用户,提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵

7.根据权利要求6所述的基于多智能体强化学习和联邦学习的边缘缓存方法,其特征在于,计算每个活跃的用户和其他用户之间的相似性的方法为:根据余弦相似性计算每个活跃的用户和其他用户之间的相似性,其计算公式为:simi(a,b)=cos(Hi(a,:),

其中,Hi(a,:)和Hi(b,:)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量,||Hi(a,:)||2和||Hi(b,:)||2分别是Hi(a,:)和Hi(b,:)的2‑norm。

8.一种基于多智能体强化学习和联邦学习的边缘缓存系统,其特征在于,包括:流行内容预测模块,用于构建包括状态、动作、奖励和策略的MADRL框架,采用联邦深度学习预测SBS覆盖范围内的流行的内容;

其中,所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤:利用联邦深度学习对对抗性编码器模型进行迭代训练;

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs,设定UE中的活跃用户,选择每个活跃用户的相邻用户并构建矩阵;

统计每个用户感兴趣内容的数量,UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容,其中感兴趣内容的数量称为该内容的内容流行度;

在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后,所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容;

边缘缓存模块,用于基于所述MADRL框架,SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。

9.一种网络装置,其特征在于,包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。

10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。