买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于深度强化学习的内容更新方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于深度强化学习的内容更新方法

￥15000

专利号： 2021104547084

申请人：陕西悟空云信息技术有限公司

专利类型：发明专利

专利状态：已下证

更新日期：2025-10-14

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于深度强化学习的内容更新方法，其特征在于，包括以下步骤：步骤一、建立缓存替换模型：

对内容更新建立缓存替换模型，并定义缓存替换模型的状态空间、动作空间和奖赏函数；

步骤二、利用神经网络获得当前缓存状态下的缓存替换策略，同时获得当前缓存状态到下一缓存状态的奖赏函数；

步骤2.1、将当前缓存状态作为神经网络的输入数据；

步骤2.2、神经网络输出缓存替换策略；智能体根据缓存替换策略执行不同缓存替换动作，选取概率最大的一个缓存替换动作，同时转移到下一缓存状态，以此得出所述当前缓存状态到下一缓存状态的奖赏函数；

步骤2.3、判断当前缓存状态是否为终止状态或者是否达到最大迭代次数，若是，则执行步骤三，否则，将下一缓存状态作为神经网络的输入数据，返回步骤2.2；

步骤三、利用神经网络找出当前缓存状态下最优缓存替换策略；

在神经网络中利用奖赏函数计算状态值函数，使用神经网络拟合状态值函数，同时获得状态值函数的TD误差，利用状态值函数的TD误差更新神经网络参数，得到当前状态下最优缓存替换策略；

步骤四、利用最优缓存替换策略进行内容更新。

2.根据权利要求1所述的一种基于深度强化学习的内容更新方法，其特征在于：步骤二中所述神经网络为Actor网络；Actor网络根据当前缓存状态输出缓存替换策略；

步骤三中所述神经网络为Critic网络，使用Critic网络拟合状态值函数，评价Actor网络输出的缓存替换策略，并指导Actor网络更新网络参数以改善缓存替换策略。

3.根据权利要求1或2所述的一种基于深度强化学习的内容更新方法，其特征在于：步骤1中缓存替换模型的状态空间：S＝{s1,s2,...,sn}，每个时刻n∈[1,n]的缓存状态定义为sn，sn＝{cn,rn,cn∈c,rn∈r}，其中c为缓存放置内容，r为请求内容；

动作空间A＝{a1,a2,...,an}，其中a1,a2,...,an代表缓存替换动作；

奖赏函数为其中sn为缓存状态，采取缓存替换动作an，缓存状态转化为sn+1，且有

表示指示函数；表示在缓存放置内容cn+1中，如果请求内容rn+1，指示函数的值取1，否则取0；表示在初始缓存放置内容cn中请求内容rn+1，指示函数的值取1，否则取0；当取1时代表通过缓存替换可以命中请求文件，而不进行缓存替换就无法命中；当取0时代表是否进行缓存替换都命中请求文件或都无法命中；当取‑1时代表通过缓存替换无法命中请求文件，反而不进行缓存替换会命中。

4.根据权利要求3所述的一种基于深度强化学习的内容更新方法，其特征在于，步骤

2.1具体为：

步骤2.11、更新时间序列n＝1；

步骤2.12、重置Actor网络和Critic网络的梯度更新量：dθ←0,dω←0,从公共部分的A3C神经网络同步参数到本线程的神经网络：θ'＝θ,ω'＝ω；θ,ω分别为Actor网络和Critic网络对应参数；

步骤2.13、令nstart＝n，并获取当前缓存状态sn＝{cn,rn}；

步骤2.14、每个线程私有智能体将sn输入到Actor网络；

步骤2.2具体为：

步骤2.21、Actor网络探索环境输出此时的策略π(sn；θ')，该策略是在当前缓存状态sn下，执行不同缓存替换动作的概率，表示为：π(sn；θ')＝P(a|sn；θ')，用π(sn,an；θ')代表执行缓存替换动作an，其中π(sn,an；θ')∈π(sn；θ')，智能体根据缓存替换策略执行不同缓存替换动作；

步骤2.22、按照Actor网络的输出选取概率最大的一个缓存替换动作an，同时转移到的下个状态sn+1并按照公式(1)计算奖赏函数记为步骤2.3具体为：

判断sn是否为终止状态或者n‑nstart＝Tmax，若是，则执行步骤三，否则，令n＝n+1，获取当前缓存状态空间sn+1＝{cn+1,rn+1}，返回步骤2.2；Tmax为全局最大迭代次数。

5.根据权利要求4所述的一种基于深度强化学习的内容更新方法，其特征在于，步骤三具体为：步骤3.1、在Critic网络中利用奖赏函数计算出状态值函数使用Critic网络拟合状态值函数其中ω'为Critic网络中神经网络参数，γ∈[0，1]为折扣因子；

步骤3.2、若sn是终止状态，则状态值函数的TD误差为0；否则计算状态值函数的TD误差其中k的上界为Tmax；

利用状态值函数的TD误差更新Actor网络的策略函数参数与Critic网络的策略函数参数

步骤3.3、用dθ和dω更新公共部分的A3C神经网络参数θ,ω，直到最大迭代次数，Actor网络输出当前状态下最优缓存替换策略。