利索能及
我要发布
收藏
专利号: 2024107666680
申请人: 金陵科技学院
专利类型:发明专利
专利状态:已下证
更新日期:2026-06-16
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于优势策略的车联网资源分配联合优化方法,其特征在于,包括以下步骤:步骤1,建立车联网环境;

步骤2,建立优化目标和约束条件;

步骤3,建立基于MADDPG和A2C的资源分配联合优化算法,用于实现复杂环境下车到基础设施通信正交子信道的频谱分配和车辆间通信的功率选择,在保障V2V链路高可靠性传输的条件下,最大化V2I链路的总吞吐量;

步骤1包括:设定车联网环境包括1个基站和两个以上车辆用户,所述车辆用户包括车到基础设施通信V2I用户和车辆间通信V2V用户;车到基础设施通信链路用于车辆连接到基站和路边单元的通信,车辆间通信链路用于车辆之间进行直接的信息交换;车到基础设施通信链路集合为SV2I,SV2I={1,2,……,M},车辆间通信链路的集合为SV2V,SV2V={1,2,……,N};M表示车到基础设施通信链路的总数,N表示车辆间通信链路的总数,M、N取值为自然数;

步骤1还包括:设定所有参与通信的车辆都配备了单一的天线设备,每个车到基础设施通信V2I用户仅通过一条车到基础设施通信上行链路进行通信,车到基础设施通信上行链路的频谱资源均匀划分为M个正交子信道;允许两个以上车辆间通信V2V用户共享每条车到基础设施通信链路的频谱资源,实现频谱的共享;

步骤1还包括:定义第m条车到基础设施通信链路和第n条车辆间通信链路信道的信噪加干扰比为:其中 表示第m条车到基础设施通信链路的信噪加干扰比, 表示第m条车到基础设施通信链路的发射功率,gn[m]表示第m号正交子信道上的第n号车辆间通信链路的信道功2

率增益,gm,B表示第m条车到基础设施通信链路的信道功率增益,σ 表示高斯白噪声功率,表示第n个车辆间通信链路对第m个车辆与车到基础设施通信链路造成的干扰程度,表达式为:其中,符号 用来表示第m条车到基础设施通信链路是否与第n条车辆间通信链路共享信道,共享时取值为1,不共享则为0;

代表第n条车辆间通信链路的发射功率,gn,B[m]表示第n条车辆间通信链路对第m条车到基础设施通信链路造成的干扰信道增益;

I1表示第m条车到基础设施通信链路对第n条车辆间通信链路产生的干扰,表达式为:其中, 表示第m条车到基础设施通信链路的发射功率,gm,n表示第n条车辆间通信链路与第m条车到基础设施通信链路共用时的干扰信道增益;

I2表示除第n条车辆间通信链路外的其他车辆间通信链路所产生的干扰,表达式为:其中,φk[m]表示第m条车到基础设施通信链路是否与第n条之外的其余k条车辆间通信链路共享信道,共享时取值为1,不共享则为0, 表示除了第n条车辆间通信链路之外的车辆间通信链路集合k在第m号车到基础设施通信链路正交子信道上的发射功率,gk,n[m]表示除了第n条车辆间通信链路之外的车辆间通信链路集合k对第n条车辆间通信链路产生的干扰信道增益;

定义发射计算功率g为:

g=ah[m]    (6)

其中,a表示与频率无关的大尺度衰落;h[m]表示与频率相关的小尺度衰落信道增益;

V2V V2I

步骤1还包括:用L 表示车辆间通信V2V用户的路径损耗,用L 表示车到基础设施通信V2I用户的路径损耗,表达式分别为:V2I

L =128.1+37.6lg(d)     (8)其中,d是一个距离参量;fc表示载波频率;

根据香农公式,得出第m条车到基础设施通信链路的总吞吐量 和第n条车辆间通信链路的总吞吐量 分别为:其中,lb表征以2为底的log对数表达,B为信道带宽;

构建有效传输概率ψn为:

其中,B1表示周期性生成的车辆间通信链路有效载荷的大小;△T是信道的相干时间;

表示单位时间t内第n条车辆间通信链路的总吞吐量,T是单位时间参量的最大值;

步骤2包括:建立如下优化目标:

其中∑n′表示处于活跃状态的车辆间通信链路数量总和;η表示通信车辆对数;max是取最大值函数;E表示期望值的函数表达;

构建如下约束条件:

其中,pmax表示车到基础设施通信链路和车辆间通信链路允许的最大发射功率;Imax表示车到基础设施通信链路和车辆间通信链路允许的最大干扰;Rmin表示第m条车到基础设施通信链路可容忍的最小传输速率;ρ0表示最小设置的有效传输概率; 表示信道最小可容忍的相干时间;

步骤3包括:

建立基于MADDPG和A2C的资源分配联合优化算法,将车联网情景视为一个多智能体深度强化学习任务,其中每辆通信车辆作为一个独立的智能体,所述智能体通过与环境的互动积累经验,并学习达到最优策略以优化奖励;在全面协作的学习模式中,智能体根据实时环境状态选择发射功率进行数据传输;算法分为集中式学习和分布式执行两个阶段,在集中式学习阶段,智能体训练策略网络和值函数网络;在分布式执行阶段,智能体根据状态信息和奖励选择最优策略π*以最小化损失L(θ),具体包括:步骤3‑1,设计状态空间:

在时隙t中,将智能体n当前遭遇的环境状态记做 智能体n根据当前策略π输出相应动作 在整个车联网系统中,所有智能体的联合状态空间定义为st,经过策略π输出得到联合动作At,共同执行动作后得到共同奖励Rt;在神经网络中,智能体n所处状态 以概率转移到下一时刻的状态 其中概率 表达式为:其中 表示智能体n在时间步t的动作选择;pr表示概率函数;

定义智能体n观测到的局部信道信息包括:自身链路的信道增益gn[m],受到其他车辆间通信链路的干扰信道增益gk,n[m],自身到基站的干扰信道增益gn,B[m],第m条车到基础设施通信链路对于第n条车辆间通信链路的干扰信道增益gm,n[m];

表达式为:

步骤3‑2,设计动作空间:

每条车到基础设施通信链路的频谱资源被均分到M个正交子信道上,N条车辆间通信链路能够从M个频谱子信道中选取一个进行共享,并调节发射功率以执行传输,连续功率值的界限被定义为 智能体n在时间步t的动作选择 表示为:步骤3‑3,设计奖励函数:

设计两个奖励函数ReV2I和ReV2V:

其中,Φ是常数;

通过权重系数法,得出最后的奖励函数Retotal为:其中,λ为权重系数,并且λ∈(0,1);为奖励因子;V2Vsuccess表示车辆间通信链路传输成功的概率; 为惩罚因子,当满足特定约束条件时为0,不满足约束条件时为参数ζ;所述特定约束条件设置为最小的车到基础设施通信链路速率容限;

参数ζ的表达式为:

其中,χ为一个调优参数;

目标是寻找最优策略π*,使累积的期望奖励最大化:

其中,Remax表示最大的累积期望奖励,Eπ是一个在π策略下求期望值的函数表达, 表示衰减因子,用于控制未来奖励的折现;τ表示时间步;当τ=0,Ret+τ表示当前奖励回报,当τ不为0,Ret+τ表示其他时间步的相关奖励; 表示当前奖励和未来奖励的总合;

步骤3‑4,实现深度确定性策略梯度算法DDPG;

步骤3‑5,实现多智能体深度确定性策略梯度MADDPG算法;

步骤3‑6,建立基于优势的演员评论家A2C算法;使用TD误差来计算A2C算法的优势函数步骤3‑7,建立MADDPG‑A2C算法;

步骤3‑4包括:所述深度确定性策略梯度算法DDPG包括以下神经网络:主Actor网络:主Actor网络用于将状态映射到动作,主Actor网络参数记为θ,主Actor网络把环境在时间步t的状态st作为输入,并产生相应的动作μ(st|θ);

目标Actor网络:目标Actor网络用于生成目标动作,初始参数设定为θ′,并产生动作μ′(st|θ′);目标Actor网络的参数通过采用平滑更新策略,逐渐从主Actor网络的参数θ中同步更新;

主Critic网络:主Critic网络用于学习动作值函数,以ω为初始参数,主Critic网络将接收环境在时间步t的状态st和对应的动作at作为输入,并输出相应的状态值函数Q(st,at|ω);主Critic网络的参数通过梯度下降法进行更新,以最小化动作值函数的估计与目标动作值之间的差距;

目标Critic网络:目标Critic网络用于评估目标动作价值,用参数ω′进行初始参数化,输出状态值函数为Q′(st,at|ω′);目标Critic网络的参数通过软更新的方式从主Critic网络的参数中逐步更新得到;

主Actor网络的参数θ通过梯度下降法来更新,使用以下链式法则:其中, 表示反向传播时损失函数对输入参数θ的梯度, 表示策略函数关于动作at的梯度,Q(st,at|ω)表示主Critic网络的输出, 表示对参数θ的梯度操作符,μ(st|θ)表示主Actor网络的输出;

主Critic网络的更新首先要通过使用目标Actor网络的输出作为目标Critic网络的输入,得到状态值函数的目标值y为:y=r+γQ′(s′t,μ′(s′t|θ′)|ω′)    (30)其中,μ′(s′t|θ′)表示目标Actor网络的输出,γ是一个超参数,s′t代表下一状态;

接着,利用主Critic网络计算状态值函数,并依据最小化损失函数的方法对主Critic网络进行反向更新,损失函数L定义为:其中,Dn表示抽取的样本数量;Q(st,at|ω)表示主Critic网络的输出;

目标Actor网络和目标Critic网络通过渐进式更新方法来优化其参数,表示为:ω′←τω+(1‑τ)ω′;θ′←τθ+(1‑τ)θ′   (32)其中τ作为一个关键超参数,用于控制更新的平滑度。

2.根据权利要求1所述的方法,其特征在于,步骤3‑5包括:多智能体环境建模:MADDPG算法将环境视为包含两个以上智能体的博弈环境,每个智能体的策略需要考虑其他智能体的影响;

共享的经验回放缓冲区:MADDPG算法使用一个共享的经验回放缓冲区,所有智能体都能够从经验回放缓冲区中采样经验来训练自己的策略网络;

集中式训练、分布式执行:MADDPG算法结合了集中式学习与分布式操作的策略,通过集中式学习来优化策略,在执行阶段则采用分布式的方式进行,即使用一个全局的主Critic网络来评估所有智能体的行为价值,每个智能体的策略网络是独立训练的;

自适应性奖励:MADDPG算法设计自适应性的奖励函数。

3.根据权利要求2所述的方法,其特征在于,步骤3‑6中,优势函数 的计算公式为:

其中, 是执行动作 后预期的总回报,由主Actor网络生成; 是在状态 下的状态值函数;

步骤3‑7包括:

定义每个独立的智能体n,其中n∈(1,2,……,N),根据各自所处的状态 通过Actor网络输出相对应的动作 主Actor网络的策略函数记做πn,在搭建的车联网系统中,每个智能体都配备了独立的主Actor网络,分别对应策略函数,以及一个主Critic网络;每个主Critic网络必须对所有Actor网络产生的策略输出进行评价,每个主Critic网络的输入整合所有N个主Actor网络的策略输出,最终进行反馈,反馈值记为Qn,经过迭代训练,最终得到全局最优解,实现奖励回报的最大化,并且随着迭代次数的增加,奖励值逐步收敛于一点,优化目标为:优化目标是保障车辆间通信链路高可靠传输条件下最大化车到基础设施通信链路的总吞吐量;

当前的智能体n的环境状态为 γ是奖励的折扣因子,得到MADDPG‑A2C算法的状态动作值函数为:其中, 表示对于智能体n,当前主Actor网络采取动作 时获得的总回报;

表示根据下一个动作 和下一状态 所得到的Q值,表示下一批次状态的预计奖励;E是均值函数;

对主Actor网络的损失函数Actorloss和主Critic网络的损失函数CriticLoss及参数更新机制进行了改进,表达式分别为:其中,y为目标Critic网络的输出Q的值, 表示采取N个动作后获得的预期总回报,advantages是优势函数; 表示给定状态下采取动作 并遵循π策略所能获得的预期回报;

当CriticLoss是连续可微的,ω能够进行梯度更新,采用A2C算法的更新策略:其中,βcriiic为主Critic网络的学习率;δ是TD误差;

在追求最大化总回报的目标下,每个智能体通过优化目标函数来调整主Actor网络的评估参数,目标函数Jθ表达式为:选用优势驱动的异步并行策略A2C来进行参数的优化:其中,αactor为主Actor网络的学习率,是一个超参数;

目标Actor网络和目标Critic网络参数的更新都采用软更新的方式,表达式为:θ′←τ*θ+(1‑τ)*θ′  (40)

ω′←τ*ω+(1‑τ)*ω′  (41)。