利索能及
我要发布
收藏
专利号: 2023108880456
申请人: 南京信息工程大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-12-30
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种移动网络内容缓存与内容迁移方法,其特征在于,包括:获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;

根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;

基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策;

所述内容流行度表示为:

      ;

式中,Pf(t)为t时刻内容f的流行度;

所述无线传输环境的信道衰落参数表示为: ;

式中, 为t时刻基站i与终端j之间的信道衰落参数, 为t‑1时刻基站i与终端j之间的信道衰落参数,ρDL,ij为目标基站i与用户终端j的信道关联因子,σDL,j为高斯随机变量,且服从σDL,j~CN(0,1);

所述基站存储状态表示为:

式中, 为目标基站i在t时刻的存储状态, 为目标基站i在t‑1时刻的存储状态,为t时刻目标基站i对目标内容f的内容缓存决策, , 表明目标基站i在t时刻将目标内容f进行缓存,反之 ,cf为目标内容f的数据量大小,F为网络中的内容总数量;

所述内容传输总时延的计算公式为:

式中, 为给定内容缓存决策 以及内容迁移决策 的内容传输总时延,为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延, 为目标内容f从邻接基站k传输至目标基站i的传输时延, 为目标内容f从源服务器经主干网传输至目标基站i的时延;

式中, U为用户终端总量, 为目标基站i与用户终端j在t时刻的下链路传输速率,Pf(t)为内容f在t时刻的流行度,cf为目标内容f的数据量大小;

式中, 为t时刻邻接基站k与目标基站i之间的数据传输速率,M为邻接基站总数,为邻接基站k对目标基站i在t时刻针对目标内容f的内容迁移决策, ,表示邻接基站k将目标内容f传输至目标基站i,反之 ;

式中, 为主干网传输速率;

所述目标基站i与用户终端j在t时刻的下链路传输速率的计算公式为:;

式中, 为t时刻目标基站i对于用户终端j的带宽分配决策, ,Bi为基站i所能提供的总带宽, 为目标基站i与用户终端j在t时刻的下链路信号与噪声比值;

式中, 为目标基站i与用户终端j的长期平均下链路信号与噪声比值;

所述系统回报函数表示为:

式中, 表示系统回报函数,qt为表示t时刻结束时内容迁移所超出的成本预算值, ,qt‑1表示t‑1时刻结束时内容迁移所超出的成本预算值,Et‑1为时刻t‑1的平均内容迁移成本,Eavg为长期迁移成本预算,si,t为系统状态,ai,t为系统动作,φt为基于成本的队列惩罚参数,μ为关于时延的惩罚参数;

式中, 为t时刻目标基站i对目标内容f的内容缓存决策,eif为基站i获取内容f所付出的成本;

所述基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策,包括:S1,采用强化学习算法基本结构,所述强化学习算法基本结构采用actor‑critic模式,初始化actor和critic的神经网络,分别构造参数为θ和w的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w),其中,a为系统动作,s为系统状态,θ和w分别表示神经网络π和神经网络Q的网络模型参数;

S2,根据动作网络π(a|s;θ)获得的结果ai,t,根据预先确定的约束规则,修正决策变量;

S3,执行决策 ;

S4,根据所述系统回报函数,计算动作回报值;

S5,邻接基站决策经验交互,修正系统回报函数U(si,t, ai,t),具体如下:;

式中, 为修正后的系统回报函数,λep为探索项的权重因子,λet为延伸项的权重因子,θt为t时刻的动作网络模型参数,θt‑n为t‑n时刻的动作网络模型参数,π为动作网络, 为参与协作的智能体的动作网络,si,t‑n为基站i在t‑n时刻的状态;

S6,构造元组 ,si,t+1为t+1时刻基站i的系统状态;

S7,更新评价网络Q(a,s;w);

wt+1=wt‑∆w

式中,wt+1和wt分别为t时刻和t+1时刻的评价网络模型参数,∆w为参数更新步长;

 ;

式中,γc为评价网络的学习率,β为更新折扣因子,Q(a,st+1;wt)为t时刻模型参数为wt且输入为(at,st)的评价网络输出值, 为网络Q(at,st;wt)关于参数w的梯度;

S8,更新动作网络π(a|s;θ);

式中,θt+1和θt分别为t时刻和t+1时刻的动作网络模型参数,γα为动作网络的学习率,J(πθ)为策略目标函数,用于指导动作网络提升系统回报, 为函数J(πθ)关于θ的梯度;

式中,d(s)为状态转移模型;

S9,持续迭代S2至S9,直至达到迭代次数,获取最终优化后的决策变量。

2.一种移动网络内容缓存与内容迁移装置,其特征在于,包括:获取模块,用于获取内容流行度、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延;

构建模块,用于根据内容流行度状态、无线传输环境的信道衰落参数、基站存储状态以及内容传输总时延构建系统回报函数;

优化模块,用于基于强化学习算法以最小化系统回报函数为目标,计算内容缓存、内容迁移与带宽分配的最优决策变量,根据最优决策变量进行内容缓存、内容迁移与带宽分配决策;

所述内容流行度表示为:

式中,Pf(t)为t时刻内容f的流行度;

所述无线传输环境的信道衰落参数表示为: ;

式中, 为t时刻基站i与终端j之间的信道衰落参数, 为t‑1时刻基站i与终端j之间的信道衰落参数,ρDL,ij为目标基站i与用户终端j的信道关联因子,σDL,j为高斯随机变量,且服从σDL,j~CN(0,1);

所述基站存储状态表示为:

式中, 为目标基站i在t时刻的存储状态, 为目标基站i在t‑1时刻的存储状态,为t时刻目标基站i对目标内容f的内容缓存决策, , 表明目标基站i在t时刻将目标内容f进行缓存,反之 ,cf为目标内容f的数据量大小,F为网络中的内容总数量;

所述内容传输总时延的计算公式为:

式中, 为给定内容缓存决策 以及内容迁移决策 的内容传输总时延,为目标内容f从目标基站i传输至用户终端j经无线链路传输的时延, 为目标内容f从邻接基站k传输至目标基站i的传输时延, 为目标内容f从源服务器经主干网传输至目标基站i的时延;

式中, U为用户终端总量, 为目标基站i与用户终端j在t时刻的下链路传输速率,Pf(t)为内容f在t时刻的流行度,cf为目标内容f的数据量大小;

式中, 为t时刻邻接基站k与目标基站i之间的数据传输速率,M为邻接基站总数,为邻接基站k对目标基站i在t时刻针对目标内容f的内容迁移决策, ,表示邻接基站k将目标内容f传输至目标基站i,反之 ;

式中, 为主干网传输速率;

所述目标基站i与用户终端j在t时刻的下链路传输速率的计算公式为:;

式中, 为t时刻目标基站i对于用户终端j的带宽分配决策, ,Bi为基站i所能提供的总带宽, 为目标基站i与用户终端j在t时刻的下链路信号与噪声比值;

式中, 为目标基站i与用户终端j的长期平均下链路信号与噪声比值;

所述系统回报函数表示为:

式中, 表示系统回报函数,qt为表示t时刻结束时内容迁移所超出的成本预算值, ,qt‑1表示t‑1时刻结束时内容迁移所超出的成本预算值,Et‑1为时刻t‑1的平均内容迁移成本,Eavg为长期迁移成本预算,si,t为系统状态,ai,t为系统动作,φt为基于成本的队列惩罚参数,μ为关于时延的惩罚参数;

式中, 为t时刻目标基站i对目标内容f的内容缓存决策,eif为基站i获取内容f所付出的成本;

所述优化模块,具体用于执行以下步骤:S1,采用强化学习算法基本结构,所述强化学习算法基本结构采用actor‑critic模式,初始化actor和critic的神经网络,分别构造参数为θ和w的动作神经网络π(a|s;θ)和评价神经网络Q(a,s;w),其中,a为系统动作,s为系统状态,θ和w分别表示神经网络π和神经网络Q的网络模型参数;

S2,根据动作网络π(a|s;θ)获得的结果ai,t,根据预先确定的约束规则,修正决策变量;

S3,执行决策 ;

S4,根据所述系统回报函数,计算动作回报值;

S5,邻接基站决策经验交互,修正系统回报函数U(si,t, ai,t),具体如下:;

式中, 为修正后的系统回报函数,λep为探索项的权重因子,λet为延伸项的权重因子,θt为t时刻的动作网络模型参数,θt‑n为t‑n时刻的动作网络模型参数,π为动作网络, 为参与协作的智能体的动作网络,si,t‑n为基站i在t‑n时刻的状态;

S6,构造元组 ,si,t+1为t+1时刻基站i的系统状态;

S7,更新评价网络Q(a,s;w);

wt+1=wt‑∆w

式中,wt+1和wt分别为t时刻和t+1时刻的评价网络模型参数,∆w为参数更新步长;

 ;

式中,γc为评价网络的学习率,β为更新折扣因子,Q(a,st+1;wt)为t时刻模型参数为wt且输入为(at,st)的评价网络输出值, 为网络Q(at,st;wt)关于参数w的梯度;

S8,更新动作网络π(a|s;θ);

式中,θt+1和θt分别为t时刻和t+1时刻的动作网络模型参数,γα为动作网络的学习率,J(πθ)为策略目标函数,用于指导动作网络提升系统回报, 为函数J(πθ)关于θ的梯度;

式中,d(s)为状态转移模型;

S9,持续迭代S2至S9,直至达到迭代次数,获取最终优化后的决策变量。

3.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行权利要求1所述方法。

4.一种计算机设备,其特征在于,包括,一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1所述方法的指令。