买专利、卖专利、专利购买、专利交易、专利出售、高企申报-基于强化学习的车联网资源分配方法、存储介质及设备

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

基于强化学习的车联网资源分配方法、存储介质及设备

￥18000

专利号： 2022110632182

申请人：华南师范大学

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.基于强化学习的车联网资源分配方法，其特征在于，包括步骤：

S100：车联网环境模块将当前的状态S、当前的动作A、当前的奖励R以及当前动作作用于当前奖励后产生的下一个状态S+，传输到初始经验回放模块；

S200：经验回放设置优化环节，将放在初始经验回放区的初始的数据通过余弦相似性模块进行样本过滤，过滤的样本包括当前的状态S、当前的动作A、当前的奖励R以及当前动作作用于当前奖励后产生的下一个状态S+，将过滤后的样本存放在最终经验回放区中，并将数据分别传输到频谱分配模块和发射功率分配模块中，用以训练对应的Target网络；

S300：频谱分配模块基于DQN算法输出一个频谱子带的分配动作，传输至最终动作策略模块中，发射功率分配模块基于DDPG算法输出一个功率分配动作传输至最终动作策略模块中，最终动作策略模块将来自两个模块的动作复合，输出最终的动作，作用于车联网环境模块，并转至步骤S100；

所述频谱分配模块采用ε‑greedy策略，所述频谱分配模块训练Target网络包括步骤：S210：在开始前车联网环境输出S到频谱分配模块，而频谱分配模块将会随机选择一个动作，然后将动作传出至车联网环境，车联网环境对相应动作产生新的环境条件S+，在第二次选择动作时会进行一个判断，以1‑ε的概率选择对应Q值最高的动作，或是以ε的概率选择一个随机的动作输出，随后会存放在初始经验回放区模块；

S220：Q网络从车联网环境模块中获取的车联网环境状态S，经过运算后得到一个动作，动作存放在初始经验回放区模块后，将会作用于车联网环境模块，产生一个新的状态提供给所述Q网络获取，重复该步骤直至初始经验回放区模块放满预设的数据，频谱分配模块将开始更新Q网络；

所述更新Q网络包括步骤：

S221：最终经验回放区中通过采样获取到当前奖励R和下一状态S+，并输出给Target网络；

S222：Target网络利用R和S+计算出下一Q值y，并将y送入到Q网络中，Q网络通过y计算loss值，根据loss值开始更新Q网络；

S223：当Q网络更新次数达到设定第一阈值，Q网络会将所有的参数都复制给Target网络，并用以更新Target网络，更新之后将继续从环境中得到相应状态，并转至步骤S210。

2.根据权利要求1所述的基于强化学习的车联网资源分配方法，其特征在于，所述奖励R表示为：其中：

表示在时隙t中，第m个子频带上的第n个V2I链路的信道容量；

Pk是个二进制数，如果Pk＝1，则第k个V2V链路使用第m个子频带，否则Pk＝0；

表示在时隙t中，第m个子频带上的第k个V2V链路的容量；

Bk表示第m个子频带上的第k个V2V链路的有效负荷；超参数设为β。

3.根据权利要求1所述的基于强化学习的车联网资源分配方法，其特征在于，所述发射功率分配模块采用Uhlenbeck‑Ornstein随机过程，在选择动作时加入了随机噪声，通过采样得到相应的动作，随后将采样得到的动作存放在初始经验回放区模块。

4.根据权利要求3所述的基于强化学习的车联网资源分配方法，其特征在于，所述发射功率分配模块包括actor模块和Critic模块，环境采样得到的状态、奖励和下一个状态会输入到Actor模块，Actor模块将输入的状态转换为状态、行动、奖励和下一个状态，并存放在初始经验回放区模块，用于更新Actor模块与Critic模块的数据集。

5.根据权利要求4所述的基于强化学习的车联网资源分配方法，其特征在于，所述更新Critic模块包括步骤：根据loss函数和标签值yi，利用back‑propagation得到Q网络的当前梯度，其中loss函数定义为均方误差，标签值的yi由Target策略网络和Target Q网络联合计算得出；

根据梯度利用Adam optimizer法开始更新Q网络；

当Q网络更新次数达到第二阈值时，采用加权模式开始更新Target Q网络，其中Q网络的参数权重为τ，当前Target Q网络的参数权重为1‑τ。

6.根据权利要求4所述的基于强化学习的车联网资源分配方法，其特征在于，所述更新Actor模块包括步骤：θ

采用函数J(θ)衡量策略网络的优劣，表示如下：J(θ)＝∫Sρ(s)Q (s,θ(s))ds，其中θ为策略网络的参数、ρ(s)是Uhlenbeck‑Ornstein随机噪声后服从正态分布的状态S的分布函数,θQ(s,θ(s))为按照策略网络选择动作后，可以产生的Q值；

用Monte‑carlo方法求得J(θ)函数的梯度，并采用Adam optimizer法更新策略网络参数θ；

当策略网络更新次数达到第三阈值后，采用加权模式开始更新Target策略网络，其中策略网络的参数权重为τ，当前Target策略网络的参数权重为1‑τ。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至6任一所述的基于强化学习的车联网资源分配方法。

8.一种设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的基于强化学习的车联网资源分配方法。