买专利、卖专利、专利购买、专利交易、专利出售、高企申报-移动网络内容缓存与内容迁移方法、装置、介质及设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

移动网络内容缓存与内容迁移方法、装置、介质及设备

￥31200

专利号： 2023108880456

申请人：南京信息工程大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-12-30

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种移动网络内容缓存与内容迁移方法，其特征在于，包括：获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延；

根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数；

基于强化学习算法以最小化系统回报函数为目标，计算内容缓存、内容迁移与带宽分配的最优决策变量，根据最优决策变量进行内容缓存、内容迁移与带宽分配决策；

所述内容流行度表示为：

；

式中，Pf(t)为t时刻内容f的流行度；

所述无线传输环境的信道衰落参数表示为：；

式中，为t时刻基站i与终端j之间的信道衰落参数，为t‑1时刻基站i与终端j之间的信道衰落参数，ρDL,ij为目标基站i与用户终端j的信道关联因子，σDL,j为高斯随机变量，且服从σDL,j~CN(0,1)；

所述基站存储状态表示为：

；

式中，为目标基站i在t时刻的存储状态，为目标基站i在t‑1时刻的存储状态，为t时刻目标基站i对目标内容f的内容缓存决策，，表明目标基站i在t时刻将目标内容f进行缓存，反之，cf为目标内容f的数据量大小，F为网络中的内容总数量；

所述内容传输总时延的计算公式为：

；

式中，为给定内容缓存决策以及内容迁移决策的内容传输总时延，为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延，为目标内容f从邻接基站k传输至目标基站i的传输时延，为目标内容f从源服务器经主干网传输至目标基站i的时延；

；

式中， U为用户终端总量，为目标基站i与用户终端j在t时刻的下链路传输速率，Pf(t)为内容f在t时刻的流行度，cf为目标内容f的数据量大小；

式中，为t时刻邻接基站k与目标基站i之间的数据传输速率，M为邻接基站总数，为邻接基站k对目标基站i在t时刻针对目标内容f的内容迁移决策，，表示邻接基站k将目标内容f传输至目标基站i，反之；

式中，为主干网传输速率；

所述目标基站i与用户终端j在t时刻的下链路传输速率的计算公式为：；

式中，为t时刻目标基站i对于用户终端j的带宽分配决策，，Bi为基站i所能提供的总带宽，为目标基站i与用户终端j在t时刻的下链路信号与噪声比值；

；

式中，为目标基站i与用户终端j的长期平均下链路信号与噪声比值；

所述系统回报函数表示为：

；

式中，表示系统回报函数，qt为表示t时刻结束时内容迁移所超出的成本预算值，，qt‑1表示t‑1时刻结束时内容迁移所超出的成本预算值，Et‑1为时刻t‑1的平均内容迁移成本，Eavg为长期迁移成本预算，si,t为系统状态，ai,t为系统动作，φt为基于成本的队列惩罚参数，μ为关于时延的惩罚参数；

；

式中，为t时刻目标基站i对目标内容f的内容缓存决策，eif为基站i获取内容f所付出的成本；

所述基于强化学习算法以最小化系统回报函数为目标，计算内容缓存、内容迁移与带宽分配的最优决策变量，根据最优决策变量进行内容缓存、内容迁移与带宽分配决策，包括：S1，采用强化学习算法基本结构，所述强化学习算法基本结构采用actor‑critic模式，初始化actor和critic的神经网络，分别构造参数为θ和w的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w)，其中，a为系统动作，s为系统状态，θ和w分别表示神经网络π和神经网络Q的网络模型参数；

S2，根据动作网络π(a|s;θ)获得的结果ai,t，根据预先确定的约束规则，修正决策变量；

S3，执行决策；

S4，根据所述系统回报函数，计算动作回报值；

S5，邻接基站决策经验交互，修正系统回报函数U(si,t, ai,t)，具体如下：；

式中，为修正后的系统回报函数，λep为探索项的权重因子，λet为延伸项的权重因子，θt为t时刻的动作网络模型参数，θt‑n为t‑n时刻的动作网络模型参数，π为动作网络，为参与协作的智能体的动作网络，si,t‑n为基站i在t‑n时刻的状态；

S6，构造元组，si,t+1为t+1时刻基站i的系统状态；

S7，更新评价网络Q(a,s;w)；

wt+1=wt‑∆w

式中，wt+1和wt分别为t时刻和t+1时刻的评价网络模型参数，∆w为参数更新步长；

；

式中，γc为评价网络的学习率，β为更新折扣因子，Q(a,st+1;wt)为t时刻模型参数为wt且输入为(at,st)的评价网络输出值，为网络Q(at,st;wt)关于参数w的梯度；

S8，更新动作网络π(a|s;θ)；

；

式中，θt+1和θt分别为t时刻和t+1时刻的动作网络模型参数，γα为动作网络的学习率，J(πθ)为策略目标函数，用于指导动作网络提升系统回报，为函数J(πθ)关于θ的梯度；

；

式中，d(s)为状态转移模型；

S9，持续迭代S2至S9，直至达到迭代次数，获取最终优化后的决策变量。

2.一种移动网络内容缓存与内容迁移装置，其特征在于，包括：获取模块，用于获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延；

构建模块，用于根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数；

优化模块，用于基于强化学习算法以最小化系统回报函数为目标，计算内容缓存、内容迁移与带宽分配的最优决策变量，根据最优决策变量进行内容缓存、内容迁移与带宽分配决策；