买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于多智能体强化学习和联邦学习的边缘缓存方法及系统

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于多智能体强化学习和联邦学习的边缘缓存方法及系统

￥18000

专利号： 2023101348853

申请人：江南大学

专利类型：发明专利

专利状态：授权未缴费

更新日期：2025-03-19

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，包括：构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；

其中，所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤：利用联邦深度学习对对抗性编码器模型进行迭代训练；

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵；

统计每个用户感兴趣内容的数量，UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容，其中感兴趣内容的数量称为该内容的内容流行度；

在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后，所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容；

基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整其本地缓存的流行的内容。

2.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，构建包括状态、动作、奖励和策略的MADRL框架，具体包括：状态：在时隙t，SBS b的本地状态定义为系统的状态定义为其中，是SBS b的本地缓存状态，pb是在SBSb覆盖范围预测的流行的内容；

动作：在时隙t，SBS b的动作定义为系统的动作定义为其中，Fp＝|pb|代表预测的流行的内容的数量；

奖励：在时隙t，将SBSb的奖励定义为

系统的奖励为

其中，α,β,χ和η是预定义的常数，和是在SBS b覆盖范围内的UE在时间间隔[t,t+1)期间获取内容数量的统计数据；

策略：用π＝{π1,...,πb,...,πB}表示缓存策略，来最大化预期的长期折扣回报π＝argminJ(π)，其中， γ∈(0,1)是折扣因子。

3.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，利用联邦深度学习对对抗性编码器模型进行迭代训练包括以下步骤：SBS在第一轮迭代训练中初始化自身的全局模型ωr，在每一轮迭代训练中，SBS更新全局模型，并将全局模型ωr传递给其覆盖范围下所有的UEs；

SBS覆盖范围下的每个UE将下载的全局模型ωr设置为自身的初始的本地模型，并通过训练迭代更新本地模型；

本地模型更新完成，UEi将更新后的本地模型上传到本地SBS；

在SBS覆盖范围内的所有UEs上传其更新后的本地模型后，所述SBS通过计算所有接收到的更新后的本地模型的加权平均和来生成新的全局模型ωr+1，其计算公式为：其中，η是固定的学习率；

通过多个回合迭代训练，得到最终的全局模型，对抗性编码器模型完成训练。

4.根据权利要求3所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，在本地模型更新过程中，使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型。

5.根据权利要求4所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，在本地模型更新过程中，使用弹性的本地更新算法为每个UE设置特定的权重，基于全局模型和本地模型之间的差异性为每个UE训练个性化的本地模型具体包括：首先定义权重距离公式，公式如下：

其中，ωa和ωb分别表示两种模型的权重，dis(ωa,ωb)越大，两种模型之间的差异就越大；

然后分别计算每层本地模型和全局模型ωr的差异并且引入α作为弹性参数，计算公式如下：其中，是本地模型的第l层的权重，ωr是全局模型ωr的第l层的权重，|L|表示深i度学习网络的层数，用于平均每层的权重距离函数，α越大，全局模型和本地模型两种模型之间的差距越大；

最后根据弹性更新公式对本地模型进行更新训练。

6.根据权利要求1所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵具体包括：SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，将UE i对内容的评分矩阵Xi作为训练好的对抗性编码器模型的输入，输出重构的评分矩阵计算UE中每个用户中评分不为零的内容数，并将设定数量的具有最大非零内容数的用户标记为活跃的用户；

UE将重构的评分矩阵和其个人信息矩阵Hi结合为组合矩阵Hi，计算每个活跃的用户和其他用户之间的相似性；

对于每个活跃的用户a，UE选择具有K个最大相似性的用户作为用户a的K个相邻用户，提取评分矩阵Xi中每个活跃用户的K个相邻用户的向量并且构建矩阵

7.根据权利要求6所述的基于多智能体强化学习和联邦学习的边缘缓存方法，其特征在于，计算每个活跃的用户和其他用户之间的相似性的方法为：根据余弦相似性计算每个活跃的用户和其他用户之间的相似性，其计算公式为：simi(a，b)＝cos(Hi(a，：)，

其中，Hi(a，：)和Hi(b，：)分别是与组合矩阵Hi中的活跃的用户a和用户b所对应的向量，||Hi(a，：)||2和||Hi(b，：)||2分别是Hi(a，：)和Hi(b，：)的2‑norm。

8.一种基于多智能体强化学习和联邦学习的边缘缓存系统，其特征在于，包括：流行内容预测模块，用于构建包括状态、动作、奖励和策略的MADRL框架，采用联邦深度学习预测SBS覆盖范围内的流行的内容；

其中，所述采用联邦深度学习预测SBS覆盖范围内的流行的内容包括以下步骤：利用联邦深度学习对对抗性编码器模型进行迭代训练；

SBS将训练好的对抗性编码器模型发送给覆盖范围内的所有UEs，设定UE中的活跃用户，选择每个活跃用户的相邻用户并构建矩阵；

统计每个用户感兴趣内容的数量，UE选择Pn个最大内容流行度的内容作为预测UE的感兴趣内容，其中感兴趣内容的数量称为该内容的内容流行度；

在SBS覆盖范围内所有UEs上传其预测的感兴趣内容后，所述SBS比较所有UEs上传的预测的感兴趣内容并选择Pn个最感兴趣的内容作为预测的流行的内容；

边缘缓存模块，用于基于所述MADRL框架，SBS根据本地状态和相邻SBSs的状态来调整其SBS本地缓存的流行的内容。

9.一种网络装置，其特征在于，包括处理器、存储器和总线系统，所述处理器和存储器通过该总线系统相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机软件产品，所述计算机软件产品包括的若干指令，用以使得一台计算机设备执行权利要求1至7任意一项所述的基于多智能体强化学习和联邦学习的边缘缓存方法。