利索能及
我要发布
收藏
专利号: 2023114802064
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-04-28
缴费截止日期: 暂无
联系人

摘要:

权利要求书:

1.一种基于5G车联网场景下MARL的资源分配方法,其特征在于,包括:S1、建立蜂窝车联网通信环境模型;

建立蜂窝车联网通信环境模型,包括:

蜂窝车联网通信环境包括V2I和V2V链路的车辆,将V2I链路的集合记为M={1,2,…,M},V2V链路集合记为K={1,2,…,K},V2V链路可复用V2I链路的信道资源,在V2I链路中,使用Uu接口连接车辆和基站,以提供高速率的数据传输服务;V2V链路通过PC5接口周期性发送安全信息;

采用正交频谱分配方案,将M个V2I链路分配给相应的子带中;

通过使用正交频分复用多址技术将频率选择性信道转化成在不同子载波上具有平坦信道的形式;

每个子载波都分配一个频谱子带,第m号子带传输的k号V2V链路的信道功率增益为gk[m]=αkhk[m];其中,αk表示V2V链路的大尺度衰落因子,hk[m]表示V2V链路的路径损耗;

在第m号子带上,m号V2I链路的信噪比由发送功率、V2V链路的信道增益、以及V2V链路的干扰共同决定,V2I链路的信噪比为 V2V链路的信噪比为V2I链路容量为 V2V链路容量为

其中, 分别表示V2I链路和V2V链路的发射功率, 表2

示第m个V2I链路到第k个V2V链路的干扰信道,σ表示噪声功率,ρk[m]表示第k号V2V链路是否在第m号子带上传输,如果是,则为1,否则为0,gk,B[m]表示从第k个V2V链路到第m个子带的基站的干扰信道,Ik[m]表示干扰功率;

对于V2V链路,通过建立速率约束条件,确保在给定时间内能够成功传输大小为B的包;

对于V2V链路,在给定时间内能够成功传输大小为B的包的速率约束条件,包括:其中,Pr{ }表示概率,B表示V2V生成的周期性的消息的大小,ΔT表示为信道相干时间,T表示时间, 表示V2V链路的信道容量,ΔT表示信道相干时间,K表示V2V链路数量;

S2、将车联网分配问题建模成部分可观测的马尔科夫决策过程;

S3、在马尔科夫决策过程中,将每个V2V链路视为一个智能体,在车联网环境模型中进行交互,获得样本信息存入样本缓冲池中;

S4、随机地从样本缓冲池中采集多个局部观测信息,每个智能体使用多头注意力机制对采集的局部观测信息进行状态特征编码,得到全局状态信息,并将每个智能体得到的全局状态信息进行拼接,得到全局状态;

S5、基于全局状态在多个不同视角状态基础上分别构建目标值函数,并选取最小的数值用于构造最终的目标值;

在多个不同视角状态基础上分别构建目标值函数,包括:

tot

其中,y 表示在不同视角状态基础上构建目标值函数, 表示基于全局状态 构建的值函数, 表示基于全局状态 构建的值函数,θ表示对‑

应值函数网络的参数,θ 表示对应目标值函数网络的参数,r表示奖励,γ表示折扣因子,t+1 t+1τ 、a 分别表示下一个状态的局部观测以及动作;

S6、使用构造的值函数回归目标,学习对应的动作值函数;

使用构造的值函数回归目标,学习对应的动作值函数,包括:其中,L(θ)表示动作值函数, 表示在视角i下估计的目标值,b表示从经验记忆中采样t的样本数量, 和 表示在不同视角下估计的值函数,τ、a分别表示局部观测和当前时刻的动作, 分别表示第一、第二全局状态;

S7、根据构造的最终目标值进行值函数训练,更新策略参数θ,得到最优策略;

S8、使用学习到的最优策略和环境交互,对车联网进行资源分配。

2.根据权利要求1所述的一种基于5G车联网场景下MARL的资源分配方法,其特征在于,在马尔科夫决策过程中,将每个V2V链路视为一个智能体,在车联网环境模型中进行交互,获得样本信息存入样本缓冲池中,包括:在每个时间步t内,给定当前的环境状态St,V2V链路接收环境的观测函数O,采取动作at,以形成联合动作;智能体执行联合动作,接收到下一个奖励Rt+1以及环境状态变为St+1,并且每个智能体都会接收到新观测空间Zt+1;将所有观测结果存入样本缓冲池中;所述观测结果包括:当前环境状态,局部观测,联合动作,下一时刻奖励,下一时刻环境状态。

3.根据权利要求1所述的一种基于5G车联网场景下MARL的资源分配方法,其特征在于,随机地从样本缓冲池中采集多个局部观测信息,每个智能体使用多头注意力机制对采集的局部观测信息进行状态特征编码,得到全局状态信息,包括:其中, 表示智能体i进行状态特征编码得到全局状态信息,MulAtt表示多头注意力i k 1 n机制模型,τ 表示查询的信息,τ 表示关键信息,(τ ...τ)表示拼接后的n个局部观测信息。

4.根据权利要求1所述的一种基于5G车联网场景下MARL的资源分配方法,其特征在于,根据构造的最终目标值进行值函数训练,更新策略参数θ,得到最优策略,包括:根据动作值函数通过神经网络梯度方向更新网络中的参数θ,进行预设次数的参数更新,从而得到最优策略。

5.根据权利要求1所述的一种基于5G车联网场景下MARL的资源分配方法,其特征在于使用学习到的最优策略和环境交互,对车联网进行资源分配,包括:同时考虑V2I和V2V链路的通信性能,根据所获得的最优策略,V2V链路选择自身参数,即占用子信道和采用的传输功率进行资源分配。