利索能及
我要发布
收藏
专利号: 2021104547084
申请人: 陕西悟空云信息技术有限公司
专利类型:发明专利
专利状态:已下证
更新日期:2025-10-14
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于深度强化学习的内容更新方法,其特征在于,包括以下步骤:步骤一、建立缓存替换模型:

对内容更新建立缓存替换模型,并定义缓存替换模型的状态空间、动作空间和奖赏函数;

步骤二、利用神经网络获得当前缓存状态下的缓存替换策略,同时获得当前缓存状态到下一缓存状态的奖赏函数;

步骤2.1、将当前缓存状态作为神经网络的输入数据;

步骤2.2、神经网络输出缓存替换策略;智能体根据缓存替换策略执行不同缓存替换动作,选取概率最大的一个缓存替换动作,同时转移到下一缓存状态,以此得出所述当前缓存状态到下一缓存状态的奖赏函数;

步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数,若是,则执行步骤三,否则,将下一缓存状态作为神经网络的输入数据,返回步骤2.2;

步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略;

在神经网络中利用奖赏函数计算状态值函数,使用神经网络拟合状态值函数,同时获得状态值函数的TD误差,利用状态值函数的TD误差更新神经网络参数,得到当前状态下最优缓存替换策略;

步骤四、利用最优缓存替换策略进行内容更新。

2.根据权利要求1所述的一种基于深度强化学习的内容更新方法,其特征在于:步骤二中所述神经网络为Actor网络;Actor网络根据当前缓存状态输出缓存替换策略;

步骤三中所述神经网络为Critic网络,使用Critic网络拟合状态值函数,评价Actor网络输出的缓存替换策略,并指导Actor网络更新网络参数以改善缓存替换策略。

3.根据权利要求1或2所述的一种基于深度强化学习的内容更新方法,其特征在于:步骤1中缓存替换模型的状态空间:S={s1,s2,...,sn},每个时刻n∈[1,n]的缓存状态定义为sn,sn={cn,rn,cn∈c,rn∈r},其中c为缓存放置内容,r为请求内容;

动作空间A={a1,a2,...,an},其中a1,a2,...,an代表缓存替换动作;

奖赏函数为 其中sn为缓存状态,采取缓存替换动作an,缓存状态转化为sn+1,且有

表示指示函数; 表示在缓存放置内容cn+1中,如果请求内容rn+1,指示函数的值取1,否则取0; 表示在初始缓存放置内容cn中请求内容rn+1,指示函数的值取1,否则取0;当 取1时代表通过缓存替换可以命中请求文件,而不进行缓存替换就无法命中;当 取0时代表是否进行缓存替换都命中请求文件或都无法命中;当 取‑1时代表通过缓存替换无法命中请求文件,反而不进行缓存替换会命中。

4.根据权利要求3所述的一种基于深度强化学习的内容更新方法,其特征在于,步骤

2.1具体为:

步骤2.11、更新时间序列n=1;

步骤2.12、重置Actor网络和Critic网络的梯度更新量:dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络:θ'=θ,ω'=ω;θ,ω分别为Actor网络和Critic网络对应参数;

步骤2.13、令nstart=n,并获取当前缓存状态sn={cn,rn};

步骤2.14、每个线程私有智能体将sn输入到Actor网络;

步骤2.2具体为:

步骤2.21、Actor网络探索环境输出此时的策略π(sn;θ'),该策略是在当前缓存状态sn下,执行不同缓存替换动作的概率,表示为:π(sn;θ')=P(a|sn;θ'),用π(sn,an;θ')代表执行缓存替换动作an,其中π(sn,an;θ')∈π(sn;θ'),智能体根据缓存替换策略执行不同缓存替换动作;

步骤2.22、按照Actor网络的输出选取概率最大的一个缓存替换动作an,同时转移到的下个状态sn+1并按照公式(1)计算奖赏函数记为步骤2.3具体为:

判断sn是否为终止状态或者n‑nstart=Tmax,若是,则执行步骤三,否则,令n=n+1,获取当前缓存状态空间sn+1={cn+1,rn+1},返回步骤2.2;Tmax为全局最大迭代次数。

5.根据权利要求4所述的一种基于深度强化学习的内容更新方法,其特征在于,步骤三具体为:步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数 使用Critic网络拟合状态值函数 其中ω'为Critic网络中神经网络参数,γ∈[0,1]为折扣因子;

步骤3.2、若sn是终止状态,则状态值函数的TD误差为0;否则计算状态值函数的TD误差其中k的上界为Tmax;

利用状态值函数的TD误差更新Actor网络的策略函数参数与Critic网络的策略函数参数

步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ,ω,直到最大迭代次数,Actor网络输出当前状态下最优缓存替换策略。