买专利、卖专利、专利购买、专利交易、专利出售、高企申报-一种基于复合优先经验回放采样的车联网资源优化方法

首页

利索能及专利检索

电话：15618600796

查出售查求购

我要发布

专利交易专利求购

一种基于复合优先经验回放采样的车联网资源优化方法

面议

专利号： 2024107666708

申请人：金陵科技学院

专利类型：发明专利

专利状态：已下证

更新日期：2026-06-16

缴费截止日期：暂无

联系人

专利简介

专利详情

购买说明

摘要:

权利要求书:

1.一种基于复合优先经验回放采样的车联网资源优化方法，其特征在于，包括以下步骤：步骤1，问题建模与目标定义；

步骤2，设计状态空间和动作空间；

步骤3，设计奖励函数，用于指导智能体获得最大回报，以选择最优策略；

步骤4，建立基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法，用于提升车辆间V2V通信链路负载传输成功率以及最大化车辆到基础设施V2I通信链路总容量；

步骤5，建立基于复合优先经验回放采样的多智能体深度确定性梯度策略Cop‑MADDPG算法，用于提升MADDPG算法的收敛性与稳定性，进一步优化功率控制策略；

步骤1包括：基于蜂窝网络的车联网具备车辆间V2V通信链路和车辆到基础设施V2I通信链路；车辆到基础设施V2I通信链路通过蜂窝接口将车辆与基站连接，当所有车辆只有一个天线时，车辆间V2V通信链路和车辆到基础设施V2I通信链路的集合分别表示为K＝{0,…,K}与M＝{0,…,M}，其中K、M分别代表车辆间V2V通信链路的数量和车辆到基础设施V2I通信链路的数量；

步骤1还包括：在时间段X1里，m号子带的k号车辆间V2V通信链路信道功率增益被描述为：gk[m]＝ahhk[m] (1)

其中，hk[m]是小规模衰落的功率量；ak代表的是与频率分量无关的大规模衰减；

步骤1还包括：设定gk′,k[m]表示k′号车辆间V2V通信链路发送端利用m号子带到达k号车辆间V2V通信链路的干扰信道；将m号子带从k号车辆间V2V通信链路发送端到基站的信道增益表示为gm,B[m]，在m号子带上从m号V2I链路发送端的发射功率信号的功率表示为gm,k[m]，令表示m号车辆到基础设施V2I通信链路发送端的信号功率，m号子带上的k号车辆间V2V2

通信链路发送端的发射功率为 σ表示噪声功率，则在m号子带上的m号车辆到基础设施V2I通信链路上所能接收到的信号与干扰噪声的比例，即信干燥比的表达式为：在m号子带上的k号车辆间V2V通信链路上能够接收到的信干燥比的表达式为：其中，Ik[m]为干扰功率的大小；ρk[m]代表的是一个频谱选择变量，它的含义为：如果k号车辆间V2V通信链路在m号子带上传输，ρk[m]＝1，否则为0；

如果所有的车辆间V2V通信链路仅仅只能够同一个正交子带相接，W是每个频谱自带的带宽，根据香农公式，m号车辆到基础设施V2I通信链路在m号子带上的容量的表达式为：得到k号车辆间V2V通信链路在m号子带上的信道容量的表达式为：设定B为在一定周期下所生成的V2V的有效载荷的大小，ΔT表示相干信道的时间，t表示相干时间的索引，表示所有V2V链路的瞬时容量和，则在规定时间T内，容量为B的数据包的传输速率P的表达式为：优化资源分配问题表示为：如果对于所有的k∈K，m∈M，车辆间V2V通信链路的传输功率为一个连续且可变的量并且最大化车辆到基础设施V2I通信链路的总容量与传输速率；

步骤2包括：对于状态空间，当时间步为t时，提前设定好智能体k的环境状态设定两个以上智能体所处的状态空间为St，当智能体选择各自的动作以后形成联合动作At；当所有的智能体同时执行完动作后获得的奖励为Rt，智能体k此时所处的状态通过概率进行到下一时刻的状态对于单个智能体k，得到自身局部环境的状态与动作并且不能获取到整体信道的条件与其余智能体所采取的动作信息；单个智能体k所能获取到的局部信道信息包括了自身信道增益gk[m]，其余车辆间V2V通信链路发送端的干扰信道为gk,k′[m]，其中所有的m∈M，智能体k自身发送端到达基站的干扰信道为gk,B[m]，以及所有车辆到基础设施V2I通信链路发送端的干扰信道gm,k[m]；智能体k所能获取到的状态为：对于动作空间，把资源分配问题映射成车辆间V2V通信链路发射功率的连续控制问题，车辆间V2V通信链路发射端的发射功率的取值范围为为车辆间V2V通信链路发射端发射功率的最大值，单个智能体k的动作策略表达式为：步骤3包括：将车辆到基础设施V2I通信链路瞬时容量和表示为将车辆间V2V通信链路的传输速率设置为奖励值Lk，有效负载交付完成后，将奖励设置为常数β，当在t时间步内车辆间V2V通信链路的有效负载成功传输的累计奖励Lk(t)表示为：奖励函数Rt表达式为：

其中μ是权重，0<μ<1；

将干扰链路智能体自身发送端到达基站的干扰信道表示为gm，k[m]，负向奖励因子为ε，

0<ε<1，则奖励函数的表达式为：

步骤4包括：所述基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法包括Actor网络和Critic网络，所述Actor网络会不断搜集环境状态，然后根据策略来进行对应的动作，所述Critic网络用策略Qk(*)来评价Actor网络所进行动作的好坏；令智能体k的输k k入状态为即时奖励的折扣因子为γ，则DDPG算法的状态和动作值函数Qk(S，A)的表达式为：k k k k′ k′

Qk(S，A)＝E[R+γQ(S ，A )] (13)

首先智能体k会得到一个最优策略并且通过不断地学习与该策略相对应的状态和动作值函数直到收敛为止；

MADDPG算法采用双网络结构，包括评估网络和目标网络，所述评估网络包括Actor评估网络和Critic评估网络，Actor评估网络的参数为 Critic评估网络的参数为目标网络包括Actor目标网络和Critic目标网络，Actor目标网络的参数为 Critic目标网络的参数为第k个智能体的奖励为则损失函数的表达式为：其中，Q′k(*)是目标网络的动作和状态值函数；E是数学期望；与均是条件概率；

当Actor通过不断地交互做出相应的动作，并且所有的智能体都在寻求累计奖励最大化，此时以策略目标函数的最大化来改变Actor的参数，目标函数表达式为：其中，μ(*)代表的是一种状态映射动作的确定性策略πk的Actor评估网络函数；

利用一个靠近于0的常量ω来改变目标网络的参数，表达式为：

2.根据权利要求1所述的方法，其特征在于，步骤4还包括：所述基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法包括集中学习和分布执行：每一组的评估网络和目标网络都被视为一个单独的智能体，在集中式的训练过程中，智能体k不仅要从局部状态中获取状态信息和当前正在进行的动作还需要获取其他智能体的状态和动作信息状态信息

当前正在进行的动作其他智能体的状态和动作信息

被储存在第k个智能体的经验池中，用于后续的集中式训练

评估网络。

3.根据权利要求2所述的方法，其特征在于，步骤5包括：引入复合优先级，所述复合优先级包括基于时间差误差TD‑error的优先级和基于实时回报的优先级；复合优先经验回放的采样方法包括如下步骤：k k

步骤5‑1，利用Q值计算时间差误差TD‑error，Q值即状态和动作值函数Qk(S，A)；

步骤5‑2，利用公式(18)定义优先级的先后：

其中，rt表示经验的实时回报，代表的是常量，ωt表示时间差误差；Yi为基于立即回报的优先级，Yf为基于TD‑error的优先级；

步骤5‑3，将经验池中的经验按照步骤5‑2中所得到的优先级进行排序获得序列rankf与ranki，其中ranki为高优先级，rankf为低优先级，并且利用公式(19)计算出所有经验的复合优先级uk：其中Yk表示复合优先级的程度，α代表概率权重，当α＝0时代表均匀采样；

步骤5‑4，将n表示为经验的数量，则第s个样本经验被采样的概率Ps的表达式为：

4.一种电子设备，包括处理器和存储器，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行如权利要求1至3中任一项所述的方法的步骤。