利索能及
我要发布
收藏
专利号: 2024107666708
申请人: 金陵科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于复合优先经验回放采样的车联网资源优化方法,其特征在于,包括以下步骤:步骤1,问题建模与目标定义;

步骤2,设计状态空间和动作空间;

步骤3,设计奖励函数,用于指导智能体获得最大回报,以选择最优策略;

步骤4,建立基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法,用于提升车辆间V2V通信链路负载传输成功率以及最大化车辆到基础设施V2I通信链路总容量;

步骤5,建立基于复合优先经验回放采样的多智能体深度确定性梯度策略Cop‑MADDPG算法,用于提升MADDPG算法的收敛性与稳定性,进一步优化功率控制策略;

步骤1包括:基于蜂窝网络的车联网具备车辆间V2V通信链路和车辆到基础设施V2I通信链路;车辆到基础设施V2I通信链路通过蜂窝接口将车辆与基站连接,当所有车辆只有一个天线时,车辆间V2V通信链路和车辆到基础设施V2I通信链路的集合分别表示为K={0,…,K}与M={0,…,M},其中K、M分别代表车辆间V2V通信链路的数量和车辆到基础设施V2I通信链路的数量;

步骤1还包括:在时间段X1里,m号子带的k号车辆间V2V通信链路信道功率增益被描述为:gk[m]=ahhk[m] (1)

其中,hk[m]是小规模衰落的功率量;ak代表的是与频率分量无关的大规模衰减;

步骤1还包括:设定gk′,k[m]表示k′号车辆间V2V通信链路发送端利用m号子带到达k号车辆间V2V通信链路的干扰信道;将m号子带从k号车辆间V2V通信链路发送端到基站的信道增益表示为gm,B[m],在m号子带上从m号V2I链路发送端的发射功率信号的功率表示为gm,k[m],令 表示m号车辆到基础设施V2I通信链路发送端的信号功率,m号子带上的k号车辆间V2V2

通信链路发送端的发射功率为 σ表示噪声功率,则在m号子带上的m号车辆到基础设施V2I通信链路上所能接收到的信号与干扰噪声的比例,即信干燥比的表达式为:在m号子带上的k号车辆间V2V通信链路上能够接收到的信干燥比的表达式为:其中,Ik[m]为干扰功率的大小;ρk[m]代表的是一个频谱选择变量,它的含义为:如果k号车辆间V2V通信链路在m号子带上传输,ρk[m]=1,否则为0;

如果所有的车辆间V2V通信链路仅仅只能够同一个正交子带相接,W是每个频谱自带的带宽,根据香农公式,m号车辆到基础设施V2I通信链路在m号子带上的容量 的表达式为:得到k号车辆间V2V通信链路在m号子带上的信道容量 的表达式为:设定B为在一定周期下所生成的V2V的有效载荷的大小,ΔT表示相干信道的时间,t表示相干时间的索引, 表示所有V2V链路的瞬时容量和,则在规定时间T内,容量为B的数据包的传输速率P的表达式为:优化资源分配问题表示为:如果对于所有的k∈K,m∈M,车辆间V2V通信链路的传输功率为一个连续且可变的量 并且最大化车辆到基础设施V2I通信链路的总容量与传输速率;

步骤2包括:对于状态空间,当时间步为t时,提前设定好智能体k的环境状态 设定两个以上智能体所处的状态空间为St,当智能体选择各自的动作以后形成联合动作At;当所有的智能体同时执行完动作后获得的奖励为Rt,智能体k此时所处的状态 通过概率进行到下一时刻的状态 对于单个智能体k,得到自身局部环境的状态与动作 并且不能获取到整体信道的条件与其余智能体所采取的动作信息;单个智能体k所能获取到的局部信道信息包括了自身信道增益gk[m],其余车辆间V2V通信链路发送端的干扰信道为gk,k′[m],其中所有的m∈M,智能体k自身发送端到达基站的干扰信道为gk,B[m],以及所有车辆到基础设施V2I通信链路发送端的干扰信道gm,k[m];智能体k所能获取到的状态为:对于动作空间,把资源分配问题映射成车辆间V2V通信链路发射功率的连续控制问题,车辆间V2V通信链路发射端的发射功率的取值范围为 为车辆间V2V通信链路发射端发射功率的最大值,单个智能体k的动作策略表达式为:步骤3包括:将车辆到基础设施V2I通信链路瞬时容量和表示为 将车辆间V2V通信链路的传输速率设置为奖励值Lk,有效负载交付完成后,将奖励设置为常数β,当在t时间步内车辆间V2V通信链路的有效负载成功传输的累计奖励Lk(t)表示为:奖励函数Rt表达式为:

其中μ是权重,0<μ<1;

将干扰链路智能体自身发送端到达基站的干扰信道表示为gm,k[m],负向奖励因子为ε,

0<ε<1,则奖励函数的表达式为:

步骤4包括:所述基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法包括Actor网络和Critic网络,所述Actor网络会不断搜集环境状态,然后根据策略来进行对应的动作,所述Critic网络用策略Qk(*)来评价Actor网络所进行动作的好坏;令智能体k的输k k入状态为 即时奖励 的折扣因子为γ,则DDPG算法的状态和动作值函数Qk(S,A)的表达式为:k k k k′ k′

Qk(S,A)=E[R+γQ(S ,A )] (13)

首先智能体k会得到一个最优策略 并且通过不断地学习与该策略 相对应的状态和动作值函数直到收敛为止;

MADDPG算法采用双网络结构,包括评估网络和目标网络,所述评估网络包括Actor评估网络和Critic评估网络,Actor评估网络的参数为 Critic评估网络的参数为 目标网络包括Actor目标网络和Critic目标网络,Actor目标网络的参数为 Critic目标网络的参数为 第k个智能体的奖励为 则损失函数 的表达式为:其中,Q′k(*)是目标网络的动作和状态值函数;E是数学期望; 与均是条件概率;

当Actor通过不断地交互做出相应的动作,并且所有的智能体都在寻求累计奖励最大化,此时以策略目标函数的最大化来改变Actor的参数,目标函数 表达式为:其中,μ(*)代表的是一种状态映射动作的确定性策略πk的Actor评估网络函数;

利用一个靠近于0的常量ω来改变目标网络的参数,表达式为:

2.根据权利要求1所述的方法,其特征在于,步骤4还包括:所述基于多智能体深度确定性梯度策略MADDPG的资源分配优化算法包括集中学习和分布执行:每一组的评估网络和目标网络都被视为一个单独的智能体,在集中式的训练过程中,智能体k不仅要从局部状态中获取状态信息 和当前正在进行的动作 还需要获取其他智能体的状态和动作信息 状态信息

当前正在进行的动作 其他智能体的状态 和动作信息

被储存在第k个智能体的经验池中,用于后续的集中式训练

评估网络。

3.根据权利要求2所述的方法,其特征在于,步骤5包括:引入复合优先级,所述复合优先级包括基于时间差误差TD‑error的优先级和基于实时回报的优先级;复合优先经验回放的采样方法包括如下步骤:k k

步骤5‑1,利用Q值计算时间差误差TD‑error,Q值即状态和动作值函数Qk(S,A);

步骤5‑2,利用公式(18)定义优先级的先后:

其中,rt表示经验的实时回报,代表的是常量,ωt表示时间差误差;Yi为基于立即回报的优先级,Yf为基于TD‑error的优先级;

步骤5‑3,将经验池中的经验按照步骤5‑2中所得到的优先级进行排序获得序列rankf与ranki,其中ranki为高优先级,rankf为低优先级,并且利用公式(19)计算出所有经验的复合优先级uk:其中Yk表示复合优先级的程度,α代表概率权重,当α=0时代表均匀采样;

步骤5‑4,将n表示为经验的数量,则第s个样本经验被采样的概率Ps的表达式为:

4.一种电子设备,包括处理器和存储器,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述的方法的步骤。