买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于强化学习的D2D辅助设备缓存系统及缓存方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于强化学习的D2D辅助设备缓存系统及缓存方法

￥10000

专利号： 2019102123333

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-05-07

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于强化学习的D2D辅助设备缓存系统，其特征在于，包括：服务器、辅助节点设备及用户所在的辅助节点D2D通信覆盖区，所述服务器包括训练数据筛选模块、服务交互模块、服务器日志记录模块、服务器请求处理模块；所述服务器中的请求处理模块用于在辅助节点中不存在用户请求的文件时，辅助节点设备向基站发起文件请求；服务器日志记录模块用于记录来自服务器下的所有服务节点的文件请求；所述服务交互模块与辅助节点进行交互，发送对应文件的特征信息；训练数据筛选模块包括数据统计模块、数据筛选模块及数据回送模块，数据统计模块用于统计日志数据，数据筛选模块用于过滤无用数据，数据回送模块用于将筛选出来的数据回送到辅助节点；

所述辅助节点设备包括强化学习模块、请求处理模块、文件缓存模块、辅助节点日志记录模块；所述请求处理模块处理来自通信覆盖区域的用户发来的文件请求；文件缓存模块用于缓存通过辅助节点转发的文件，辅助节点日志记录模块用于记录请求数据；强化学习模块包含了数据预处理、经验池队列、神经网络三个部分，数据预处理用于对数据的格式进行转换，经验池队列用于缓存训练数据，神经网络用于计算强化学习输出结果。

2.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，将文件的生存时间、被请求的次数，请求次数的增长率作为文件的特征F，辅助节点日志记录模块将(Fr,tr,Rr)作为一条日志记录进行记录，其中Fr为请求的文件特征，tr为请求的时间，Rr为请求结果，服务器日志记录模块将[Fr,(Fh,1,Fh,2,Fh,3,…,Fh,L),tr,a]作为一条日志记录,(Fh,1,Fh,2,Fh,3,…,Fh,L)当为当前辅助节点中的缓存的所有文件的特征，a为辅助节点设备采取的删除动作，辅助节点日志记录用于计算强化学习的reward，服务器端的日志记录作为强化学习模块的训练样本。

3.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述服务器的训练数据筛选模块对服务器设备中所有的辅助节点设备的请求进行汇总统计；

设当前辅助节点设备为H1，与H1距离小于R的范围内所有节点为N＝{n1,n2,…,ns},服务器会将来自N中所有辅助节点设备的请求记录回送到辅助设备H1，用于神经网络的训练；在数据回送时，采取的策略为：上一次请求和本次请求r0间隔时间Δt，在Δt时间内当前节点没有请求数据，服务器N中所有节点产生的请求记录为R＝{r1,r2,…,rs},(s≥0)，rs表示一条数据请求的记录，本次请求发生后服务器会将R和r一起回送到辅助节点设备的强化学习模块。

4.根据权利要求1所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述强化学习模块的神经网络模块包括神经网络A和神经网络B，经验池队列不断更新经验池数据，神经网络A用于在用户发起文件请求时计算当前是否需要缓存请求的文件,神经网络B用于使用不断更新的经验池的数据对自身参数进行更新，并在训练一定时间后用已经适应了新环境的神经网络B中的参数替换适应旧环境的神经网络A，达到动态更新缓存策略的目的；经验池维持着一个长度为M的左进右出的双向数据队列，所述队列中的数据有M条时，新的数据会从队列左端进入队列，旧的数据会从队列右端出列，当经验池中的数据完全被替换，即上一次进行神经网络的替换后经验池又收到了M条新的请求数据，强化学习模块进行一次神经网络的替换，其中M的计算公式如下：视频文件的平均码率为c，D2D通信中分块文件大小为b,辅助设备覆盖范围内用户数为N，平局每个用户请求30次后替换一次神经网络的参数。

5.根据权利要求4所述的一种基于强化学习的D2D辅助设备缓存系统，其特征在于，所述强化学习模块旨在通过接收来自数据预处理模块的有效命中率和辅助设备当前内部缓存信息进行学习来提高有效命中率；将能成功从非基站来源处接受到所请求的流媒体文件称之为命中，所述的流媒体请求命中率是由命中的次数参数、总的流媒体文件请求次数参数所计算得出，强化学习具体包括以下步骤：

5.1)设计每一个时间段为由X次用户流量卸载请求组成的单位时间片，令该时间段内从自身卸载成功的次数为a1，从其他用户设备进行D2D通信流量卸载成功的次数为b1，从辅助设备进行D2D通信流量卸载成功的次数为c1，则有效命中率为：Ω＝(a1+b1+c1)/X

5.2)辅助设备的存储容量为L，神经网络状态的输入为：1×(L+1)的一维数组，数组结构为：[F1,F2,F3,…,FL,Fr]；FL表示当前辅助设备中缓存的文件对应的全局流行度，Fr表示当前请求的文件对应的全局流行度，为当前辅助设备中已存储的流媒体文件；r为在该辅助设备覆盖范围内用户设备当前请求的文件；

5.3)神经网络状态的输出为：[a1,a2,……,aL]，k(1≤k≤L+1)为代表通过神经网络输出的替换当前辅助设备缓存中下标为k的文件的权值；

5.4)将5.2)中的数组作为输入，得到5.3)所示的输出A，辅助节点删除argmax([a1,a2,……,ak+1])所对应的缓存文件；

5.5)将神经网络输入数据对应的服务器日志文件记录中请求时间tr取出，对应辅助节点中tr的日志文件记录，用辅助节点日志记录中tr后1000条记录计算5.1)的有效命中率，将有效命中率作为本次动作的奖励。

6.一种权利要求1-5之一所述系统的基于强化学习的D2D辅助设备缓存方法，其特征在于，包括以下步骤：

辅助节点设备中的请求处理模块接受并处理来自辅助节点覆盖区域的用户发来的请求，处理请求后由文件缓存模块在辅助节点设备缓存中查询该文件，若存在该文件，则将文件发送给请求者，向服务器的服务交互模块查询文件的特征信息后在日志记录模块中进行记录，同时将记录数据送入强化学习模块，进行数据处理计算强化学习的奖励参与网络参数优化；

基站在辅助设备缓存中不存在请求文件的时候，由服务器的请求处理模块接收来自辅助节点设备的请求，并向外部网络请求该文件，将文件发送给辅助设备，辅助设备将文件发送给用户，同时将辅助节点自身的状态转化为数据输入到神经网络，辅助节点根据神经网络的输出进行文件的替换，然后将记录写入自身日志模块；

在系统运行的同时会将辅助节点的数据送入强化学习模块，而且服务器会定期根据一定策略筛选记录数据，并将其送入辅助节点设备的强化学习模块，用于优化强化学习的神经网络；神经网络在经验池中选取数据送入网络，根据数据预处理模块计算的奖励对其中的一个神经网络进行不断的训练优化，在训练一定时间后会将用于计算文件替换的神经网络的参数替换掉，提供一种根据文件流行度变化的动态策略。